![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
彬正L
这个作者很懒,什么都没留下…
展开
-
Spark中Standalone的两种提交模式(Standalone-client模式与Standalone-cluster模式)
Spark中Standalone有两种提交模式,一个是Standalone-client模式,一个是Standalone-cluster模式。1.Standalone-client提交任务方式提交命令./spark-submit --master spark://node01:7077 --class org.apache.spark.examples.SparkPi ../li...转载 2018-11-16 08:30:03 · 291 阅读 · 1 评论 -
sparkstreaming同时消费多个topic的数据实现exactly-once的语义
最近很多人问我,sparkstreaming怎么消费多个topic的数据,自己维护offest,其实这个跟消费一个topic是一样的,但还是有很多问我,今天就简单的写一个demo,供大家参考,直接上代码吧,已经测试过了.我把offest存到redis里了,当然也可以保存在zk,kafka,mysql,hbase中都可以,看自己的选择.(用了3个topic,每个topic5个partition.)i...转载 2018-11-16 08:32:28 · 2543 阅读 · 2 评论 -
spark streaming流式处理kafka中的数据(java)
spark streaming是spark中用来处理流式数据的,用来对接各类消息队列是极好的。spark streaming并不是真正实时的流式处理,它本质上还是批处理,只是每一个批次间隔的时间很短。我是用java来写的。跟大佬们的scala不能比,没有scala简洁。。先是maven需要依赖的spark-kafka包:<dependency> <grou...转载 2018-11-16 08:52:52 · 632 阅读 · 0 评论 -
spark Hadoop 高可用模式下读写hdfs
SparkSession spark = SparkSession.builder().config(rdds.context().getConf()) .config("spark.sql.warehouse.dir", "/app/spark-warehouse") .config("dfs.nameservices", "cluster1") ...原创 2018-11-29 14:53:12 · 879 阅读 · 0 评论