大数据之Spark Streaming(二)

本文详细介绍了Spark Streaming的输入数据源,包括基本源如文件流、套接字流和RDD队列流,以及高级数据源如Flume数据接收。讲解了如何设置接收器从数据源获取DStreams,强调了数据一致性与处理方式,提供了Flume Push模式和Pull模式的配置与测试流程。
摘要由CSDN通过智能技术生成

输入DStreams和接收器

输入DStreams表示从数据源获取输入数据流的DStreams。在NetworkWordCount例子中,lines表示输入DStream,它代表从netcat服务器获取的数据流。每一个输入流DStream和一个Receiver对象相关联,这个Receiver从源中获取数据,并将数据存入内存中用于处理。

输入DStreams表示从数据源获取的原始数据流。Spark Streaming拥有两类数据源:

  • 基本源(Basic sources):这些源在StreamingContext API中直接可用。例如文件系统、套接字连接、Akka的actor等
  • 高级源(Advanced sources):这些源包括Kafka,Flume,Kinesis,Twitter等等
文件流:通过监控文件系统的变化,若有新文件添加,则将它读入并作为数据流

需要注意的是
① 这些文件具有相同的格式
② 这些文件通过原子移动或重命名文件的方式在dataDirectory创建
③ 如果在文件中追加内容,这些追加的新数据也不会被读取。

在这里插入图片描述
注意:要演示成功,需要在原文件中编辑,然后拷贝一份
在这里插入图片描述

import org.apache.log4j.{Level, Logger}
import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
 * @Autho: Administrator and wind
 * @Version: 2019/11/22 & 1.0
 *
 * 文件流
 * Streaming监控文件系统变化,把变化类容采集进来
 */
object FileStreaming {

  def main(arg
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值