Spark streaming 入门实验

本文介绍了Spark Streaming的基本概念,并通过Spark Streaming的WordCount实验,展示了如何在spark-shell中进行实时数据处理。实验包括使用nc模拟数据源,调整日志级别,以及在spark-shell中运行代码进行数据处理。
摘要由CSDN通过智能技术生成

Spark Streaming 是一个基于spark的实时计算框架。详细说明参考Spark Streaming Programming Guide. 以下是编程指南WordCount例子的在spark-shell了实验记录。运行前,把spar/conf目录下的log4j.properties里的日志级别由INFO改为WARN,否则会打印太多的日志。

1. 运行 nc 模拟数据源输入

文中的命令为 nc -lk 9999 ,运行后在另一个窗口用netstat -tnlp | grep 9999 命令检查一下,如果没有输出改用nc -lk -p 9999 再试一下。

2. 运行 spark-shell

spark-shell --master spark://d-hdp-01:7077 --executor-memory 1g

在paste模式拷贝以下代码,其中ip地址根据实际情况设置,spark-shell已创建了上下文,就不用在创建上下文了。

import org.apache.spark._  
import org.apache.spark.streaming._  
import org.apache.spark.streaming.StreamingContext._  
val ssc = new StreamingContext(sc, Seconds(1))  
val lines = ssc.socketTextS
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值