Spark Streaming
文章平均质量分 75
怒上王者
加油!
展开
-
Spark Streaming(十二)基于Spark Streaming&Flume&Kafka打造通用流处理平台
通用流处理平台整合日志输出到Flume1. pom.xml2. 结合log4j产生日志3. 编写Flume配置文件 streaming.conf4. Flume启动5. 配置log4j.properties6. 启动IDEA程序,查看日志接收情况整合Flume到Kafka1. 启动zookeeper2. 启动kafka3.查看Kafka的topic列表4.创建一个新的topic5.编写Flume配置文件(streaming2.conf)6.启动Flume agent7.启动kafka消费者8.启动IDEA程原创 2021-05-12 10:23:28 · 359 阅读 · 0 评论 -
Spark Streaming整合Kafka实战二
Spark Streaming整合Kafka实战二Spark Streaming整合kafka的第二种方式1. Direct Approach (No Receivers)优点:缺点:2. 偏移量解决方案自动提交偏移量手动提交偏移量Spark Streaming整合kafka的第二种方式1. Direct Approach (No Receivers)这种新的不基于Receiver的直接方式,是在Spark 1.3中引入的,从而能够确保更加健壮的机制。替代掉使用Receiver来接收数据后,这种方原创 2021-05-10 20:04:21 · 2898 阅读 · 8 评论 -
Spark Streaming实时流处理项目实战(十一)Spark Streaming整合Kafka实战一
Spark Streaming整合Kafka实战Spark Streaming对kafka的支持Spark Streaming整合kafka的两种方式receiver方式:基于线程拉取数据direct方式:直接连接模式1.Receiver-based ApproachSpark Streaming对kafka的支持spark streaming官网链接:https://spark.apache.org/docs/2.2.0/streaming-kafka-integration.htmlSpark原创 2021-05-10 17:03:55 · 468 阅读 · 4 评论 -
Spark Streaming实时流处理项目实战(九)Spark Streaming进阶
Spark Streaming进阶带状态的算子带状态的算子updateStateByKey原创 2021-04-27 16:12:14 · 221 阅读 · 0 评论 -
Spark Streaming实时流处理项目实战(八)Spark Streaming核心
Spark Streaming核心核心概念1. StreamingContextTransformationsOutput Operations实战案例核心概念1. StreamingContextTransformationsOutput Operations实战案例原创 2021-04-25 17:15:35 · 601 阅读 · 0 评论 -
Spark Streaming实时流处理项目实战(十)Spark Streaming整合Flume实战一
一、简介Apache Flume 是一个分布式,高可用的数据收集系统,可以从不同的数据源收集数据,经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。二、推送式方法-Push在推送式方法 (Flume-style Push-based Approach) 中,Spark Streaming 程序需要对某台服务器的某个端口进行监听,Flume 通过 avro Sink 将数据源源不断推送到该端口。三、基于拉方式处理-PullSpar原创 2021-04-30 16:00:33 · 364 阅读 · 0 评论 -
Spark Streaming实时流处理项目实战(十)Spark Streaming整合Flume实战二
Spark Streaming整合Flume实战二基于拉方式:Pull-based Approach using a Custom Sink配置步骤基于拉方式:Pull-based Approach using a Custom SinkSpark Streaming 基于拉方式处理 Flume-ng 数据源(Pull-based Approach using a Custom Sink)这种方式不是 Flume 直接推送数据到 SparkStreaming ,这种方法运行了一个如下所示的 Flume原创 2021-05-05 12:28:21 · 299 阅读 · 0 评论 -
记一次Spark Streaming 整合Flume-Pull方式报错
Spark Streaming从flume 中使用Pull拉取数据时,报如下错误: 12:18:35 INFO node.Application: Starting Sink spark-sink 12:18:35 INFO node.Application: Starting Source netcat-source 12:18:35 INFO source.NetcatSource: Source starting 12:18:35 INFO sink.SparkSink: Starting S原创 2021-05-05 12:36:36 · 169 阅读 · 1 评论 -
Spark Streaming实时流处理项目实战(七-2)粗粒度&细粒度原理
粗粒度&细粒度原理 粗粒度 细粒度 粗粒度上图是Spark Streaming粗粒度工作示意图1.工作原理:(1)Spark Streaming接收到实时数据流(data stream)(2)Spark Streaming把数据按照指定的时间段切成一片片小的数据块(小批次)(3)然后Spark Streaming把小的数据块传给Spark Engine处理(4)Spark Engine处理后,输出处理后的数据(processed result) 每个应用程序的运行环境由一个Dr原创 2021-03-13 13:50:05 · 246 阅读 · 0 评论 -
Spark Streaming实时流处理项目实战(七-1)Spark Streaming入门
Spark Streaming入门概述应用场景集成Spark生态系统的使用Spark Streaming发展史 词频统计概述Spark Streaming是核心Spark API的扩展,可实现实时数据流的可伸缩,高吞吐量,容错流处理。数据可以从像卡夫卡,室壁运动,或TCP套接字许多来源摄入,并且可以使用与像高级别功能表达复杂的算法来处理map,reduce,join和window。最后,可以将处理后的数据推送到文件系统,数据库和实时仪表板。实际上,您可以在数据流上应用Spark的 机器学习和 图形处理算原创 2021-03-08 20:25:20 · 770 阅读 · 2 评论 -
Spark Streaming实时流处理项目实战(六)使用IDEA搭建Spark Streaming开发环境
使用IDEA搭建Spark Streaming开发环境1、pom.xml中添加对应的依赖1、pom.xml中添加对应的依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="ht原创 2021-03-05 17:34:07 · 480 阅读 · 1 评论 -
Spark Streaming实时流处理项目实战(五)项目环境搭建之scala安装
项目环境搭建所需环境组件Scala 安装所需环境组件因为在前几章节中JDK,Hadoop、Zookeeper、Spark、HBase已经安装过了,这里就不在演示了Scala 安装1、下载安装包:登录官网,点击download点击"All previous releases"找到Scala 2.11.8,并点击下载tgz包,如果在Windows下安装需要下载msi或者zip包2、上传将安装包上传至服务器,解压tar -zxvf scala-2.11.8.tgz -C /opt/m原创 2021-03-03 14:42:17 · 315 阅读 · 0 评论 -
Spark Streaming实时流处理项目实战(四)分布式消息队列Kafka
分布式消息队列Kafkakafka概述kafka架构及核心概念kafka部署及使用kafka容错性测试kafka API编程kafka实战kafka概述Kafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。kafka架构及核心概念1)Producer :消息生产者,就是向kafka broker发消息的客户端;2)Consumer :消息消费者,向kafka broker取消息的客户端;3)Consumer Group (CG):消费者组,由多个consumer组原创 2021-02-22 18:52:50 · 456 阅读 · 0 评论 -
Spark Streaming实时流处理项目实战(三)日志收集Flume
分布式日志收集框架Flume业务现状分析Flume概述Flume架构及核心组件Flume环境部署Flume实战业务现状分析如何解决我们的数据从其他server上移动到Hadoop之上shell 将数据cp到hadoop的机器上然后再使用 hadoop fs -put …将数据放入到hdfs上使用传统方案没有办法解决容错和负载均衡,这时可以使用FlumeFlume概述Flume官网:http://flume.apache.org/Flume是一种分布式的、高可靠的、高可用的服务,用于高效原创 2021-02-20 15:51:31 · 2250 阅读 · 1 评论 -
Spark Streaming实时流处理项目实战(二)初识实时流处理
初识实时流处理1.业务现状分析2.实时流处理产生背景3.实时流处理概述4.离线计算与试试计算对比5.实时流处理框架对比6.实时流处理框架与技术选型7.实时流处理在企业中的应用1.业务现状分析需求: 统计某主站上课程访问的客户端地域信息分布 问题:按小时级别统计、10分钟、5分钟、1分钟、秒级别 分析:小时统计时是可以使用MapReduce来进行离线处理的,但是分钟级别和秒级别时使用MR来做计算就不太靠谱了,因为MapReduce在执行时延时性比较高,适合做离线批处理,MapReduce有MapT原创 2021-02-20 14:31:37 · 1016 阅读 · 1 评论 -
Spark Streaming实时流处理项目实战(一)课程介绍
1.1课程介绍1.课程流程2.可视化效果采用了两种实现方式:第一种:使用Sparing Boot整合Echarts实现;第二种:使用阿里云DataV数据可视化框架实现原创 2021-02-20 09:58:06 · 386 阅读 · 0 评论