Spark streaming 入门实验

最新推荐文章于 2024-05-08 18:50:24 发布

hjh00

最新推荐文章于 2024-05-08 18:50:24 发布

阅读量865

点赞数

分类专栏： hadoop 文章标签： spark streaming spark

本文链接：https://blog.csdn.net/hjh00/article/details/71662796

版权

本文介绍了Spark Streaming的基本概念，并通过Spark Streaming的WordCount实验，展示了如何在spark-shell中进行实时数据处理。实验包括使用nc模拟数据源，调整日志级别，以及在spark-shell中运行代码进行数据处理。

摘要由CSDN通过智能技术生成

Spark Streaming 是一个基于spark的实时计算框架。详细说明参考Spark Streaming Programming Guide. 以下是编程指南WordCount例子的在spark-shell了实验记录。运行前，把spar/conf目录下的log4j.properties里的日志级别由INFO改为WARN，否则会打印太多的日志。

1. 运行 nc 模拟数据源输入

文中的命令为 nc -lk 9999 ，运行后在另一个窗口用netstat -tnlp | grep 9999 命令检查一下，如果没有输出改用nc -lk -p 9999 再试一下。

2. 运行 spark-shell

spark-shell --master spark://d-hdp-01:7077 --executor-memory 1g

在paste模式拷贝以下代码，其中ip地址根据实际情况设置，spark-shell已创建了上下文，就不用在创建上下文了。

import org.apache.spark._  
import org.apache.spark.streaming._  
import org.apache.spark.streaming.StreamingContext._  
val ssc = new StreamingContext(sc, Seconds(1))  
val lines = ssc.socketTextS