大数据
文章平均质量分 73
json0227
这个作者很懒,什么都没留下…
展开
-
新一代MQ:Apache pulsar
1、安装 1.1 安装包下载 官网下载地址:http://pulsar.apache.org/download/ 1.2 安装(standalone) 上传安装包,解压即可 tar xvfz apache-pulsar-2.7.1-bin.tar.gz 1.3 启动/停止 # 后台启动 bin/pulsar-daemon start standalone # 停止 bin/pulsar-daemon stop standalone 1.4 客户端生产消费消息 # 从 my-to原创 2021-04-27 18:01:40 · 536 阅读 · 1 评论 -
flink内存模型
1、详细内存模型 Managed Memory: Streaming jobs can use it forRocksDB state backend. (流处理中的RocksDB状态后端) Batch jobscan use it for sorting, hash tables, caching of intermediate results.(批处理排序、分区、中间结果缓存) Both streaming and batch jobs can use it for executi...原创 2021-03-29 18:00:37 · 429 阅读 · 0 评论 -
元数据管理 Apache Atlas
1、Atlas是什么? Atlas是Hadoop的数据治理和元数据框架。Atlas是一组可扩展和可扩展的核心基础治理服务,使企业能够有效,高效地满足Hadoop中的合规性要求,并允许与整个企业数据生态系统集成。Apache Atlas为组织提供了开放的元数据管理和治理功能,以建立其数据资产的目录,对这些资产进行分类和治理,并为数据科学家,分析师和数据治理团队提供围绕这些数据资产的协作功能。 2、主要特性 支持各种Hadoop和非Hadoop元数据管理 数据分类 数据血缘 可以支持字段级别原创 2020-12-17 10:02:38 · 455 阅读 · 1 评论 -
spark 集成 kafka
1、spark消费kafka数据 spark从topic的指定偏移量开始消费数据,指定后会覆盖参数设置中的配置 "auto.offset.reset" -> "earliest" val kafkaParams = Map[String, Object]( "bootstrap.servers" -> "localhost:9092", "key.deserializer" -> classOf[StringDese...原创 2021-03-19 16:16:37 · 305 阅读 · 0 评论