Scala和Java二种方式实战Spark Streaming开发

本文介绍了使用Scala和Java两种方式实现Spark Streaming的开发,涵盖了创建SparkConf对象、SparkStreamingContext、设置数据源以及DStream操作。强调了foreachRDD方法的重要性和Scala代码中的接收数据、flatMap、map、reduce等操作。还提到了Spark Streaming处理多种数据源的能力,并提供了相关课程资源链接。
摘要由CSDN通过智能技术生成

在这里我主要借鉴课上老师讲的以及官网的API来进行简单的Spark Streaming的开发:

一:java形式:

1.我们可以总结一下步骤:

第一步:创建SparkConf对象
第二步:创建SparkStreamingContext
第三步:创建爱你SparkStreaming输入数据来源(我们将数据源配置为本地端口9999(要求端口没有被占用))
第四步:我们就像对RDD编程一样,基于DStream进行编程,原因是DStream是RDD产生的模板,在Spark Streaming发生计算前,其实质是把每个Batch的DStream的操作翻译成了RDD操作
补充说明:
除了print()方法将处理后的数据输出之外,还有其他的方法也非常重要,在开发中需要重点掌握,比如SaveAsTextFile,SaveAsHadoopFile等,最为重要的是foreachRDD方法,这个方法可以将数据写入Redis,DB,DashBoard等,甚至可以随意的定义数据放在哪里,功能非常强大。

public class WordCountOnline {
   

    public static void main(String[] args) {
/*  第一步:配置SparkConf:
    1,至少两条线程因为Spark Streaming应用程序在运行的时候至少有一条线程用于
        不断地循环接受程序,并且至少有一条线程用于处理接受的数据(否则的话有线程用于处理数据,随着时间的推移内存和磁盘都会
    不堪重负)
    2,对于集群而言,每个Executor一般肯定不止一个线程,那对于处理SparkStreaming
        应用程序而言,每个Executor一般分配多少Core比较合适?根据我们过去的经验,5个左右的Core是最佳的
    (一个段子分配为奇数个Core表现最佳,例如3个,5个,7个Core等)
*/      
SparkConf conf = new SparkConf().setMaster("local[2]").setAppName("WordCountOnline");
        SparkConf conf = new SparkConf().setMaster("spark://Master:7077").setAppName("WordCountOnline");
/*      第二步:创建SparkStreamingCont
  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值