- 博客(3)
- 资源 (13)
- 收藏
- 关注
原创 kafka connector之sink
1.kafka connector基本架构模型图topic logconsumerconnectorKafka connect有两个概念,一个source,另一个是sink。source是把数据从一个系统拷贝到kafka里,sink是从kafka拷贝到另一个系统里 Connectors – the high level
2016-11-29 11:32:49 4120
原创 kafka contrib包之hadoop-consumer分析
近来由于项目需要,要使用到kafka作为数据的中转站,所有的数据都会进入到kafka,再流向数据使用方,有在线的spark,有离线的spark sql;但作为离线的使用,一般数据存入于hdfs之上,为了分析的方便。我一贯的经验是建目录类似于DB的shema存放。因此这就需要有一个hadoop-consumer完成数据从kafka到hadoop的ETL。在kafka官网上有一个极短的介绍kafka源
2015-08-04 14:32:42 1147
转载 Spark概念RDD
转载自http://zhuguangbin.github.io/blog/2013/07/16/spark-core-concept/Spark的核心思想是RDD,以及对RDD的操作(transformation/action)。本篇简单介绍这些基本概念,以有利于理解Spark的原理。(一) RDD(resilient distributed dataset)
2015-04-21 15:30:47 410
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人