spark
记录点滴人生
这个作者很懒,什么都没留下…
展开
-
spark createDirectStream保存kafka offset(JAVA实现)
问题描述 最近使用Spark streaming处理kafka的数据,业务数据量比较大,就使用了kafkaUtils的createDirectStream()方式,此方法直接从kafka的broker的分区中读取数据,跳过了zookeeper,并且没有receiver,是spark的task直接对接kakfa topic partition,能保证消息恰好一次语意,但是此种方式因为没有经过z转载 2016-06-28 15:18:40 · 1022 阅读 · 0 评论 -
Spark-yarn环境配置
一、spark-env.sh1.配置hadoop的配置文件 export HADOOP_CONF_DIR=/home/hadoop/etc/hadoop 二、spark-defaults.conf1.配置spark依赖的文件并上传到hdfs中 spark.yarn.jar=hdfs:///user/spark/jars/spark-assembly-1.6.0-hadoop2.4.0.jar原创 2016-11-19 17:10:14 · 2534 阅读 · 0 评论