Spark Streaming入门 - 数据处理api - transformToPair

大白话理解:每个流式的Dstream,其实底层也是通过rdd来操作,transform就是将Dstream转成rdd,就可以和其他的普通的rdd做各种运算操作

1 新建zidian.txt文件

24##少林寺欲将功夫融入足球培训运动员
25##北京警方捣毁侵害公民信息团伙抓获299人
26##北京发布雷电黄色预警傍晚至夜间将有大到暴雨
27##聚划算成清仓专用问题产品充斥
28##七夕前夜英仙座流星雨助兴我国处于最佳观测区
30##报告称中国取代英国成世界第5大常规武器出口国

2 在158.158.4.49上,运行nc -lk 9998
输入数据格式为24 good

3 主程序代码

package cn.taobao;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.StorageLevels;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.streaming.Durations;
import org.apache.spark.streaming.api.java.JavaPairDStream;
import org.apache.spark.streaming.api.java.JavaReceiverInputDStream;
import org.apache.spark.streaming.api.java.JavaStreamingContext;
import scala.Tuple2;
import java.util.regex.Pattern;

public class Transform_Test
{
    public static void main(String[] args) throws Exception {

        // StreamingContext 编程入口
        JavaStreamingContext ssc = new JavaStreamingContext(
                /*
                按照Cpu最多Cores来设置线程数
                 */
                "local[*]",
                "TwoSocketJoin_Test",
                Durations.seconds(4),
                System.getenv("SPARK_HOME"),
                JavaStreamingContext.jarOfClass(Transform_Test.class.getClass()));

        ssc.sparkContext().setLogLevel("ERROR");

        //从文件中返回 JavaPairRDD数据
        String file="C:\\Users\\need\\Desktop\\zidian.txt";
        JavaRDD<String> stringJavaRDD = ssc.sparkContext().textFile(file);
        JavaPairRDD<String, String> keyvalueRDD = stringJavaRDD.mapToPair(new PairFunction<String, String, String>() {
            @Override
            public Tuple2<String, String> call(String s) throws Exception {
                String[] arr = s.split("##");
                return new Tuple2<>(arr[0], arr[1]);
            }
        });

        //数据接收器(Receiver)
        //创建一个接收器(JavaReceiverInputDStream),这个接收器接收一台机器上的某个端口通过socket发送过来的数据并处理
        JavaReceiverInputDStream<String> socketTextStream_1 = ssc.socketTextStream(
                "158.158.4.49", 9998, StorageLevels.MEMORY_AND_DISK_SER);

        JavaPairDStream<String, String> javaPairDStream_1 = socketTextStream_1.mapToPair(new PairFunction<String, String, String>() {
            @Override
            public Tuple2<String, String> call(String s) throws Exception {
                String[] s1 = Pattern.compile(" ").split(s);
                return new Tuple2<>(s1[0], s1[1]);
            }
        });

        //流式Dstream和rdd做运算
        JavaPairDStream<String, Tuple2<String, String>> stringTuple2JavaPairDStream = javaPairDStream_1.transformToPair(aa -> aa.join(keyvalueRDD));
        stringTuple2JavaPairDStream.print();

        //显式的启动数据接收
        ssc.start();
        try {
            //来等待计算完成
            ssc.awaitTermination();
        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            ssc.close();
        }
    }
}

运行结果如下

-------------------------------------------
Time: 1619588148000 ms
-------------------------------------------
(33,(keyi,汽车高速爆胎致车祸鉴定机构回避轮胎质量问题))

-------------------------------------------
Time: 1619588152000 ms
-------------------------------------------

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值