基于Hadoop3.2的搜狗网搜索日志行为分析(19)--通过Spark Streaming进行实时分析

本文介绍了如何使用Spark Streaming对接Kafka进行实时数据处理。内容包括Spark Streaming概述,它从多种数据源获取数据,如Kafka。重点讲解了Spark Streaming访问Kafka的两种方式,推荐使用kafka1.0 API的Direct方式,该方法能主动从Kafka取数据并存储到MySQL。此外,还介绍了模拟数据发送到Kafka以及在MySQL中查询分析结果的方法。
摘要由CSDN通过智能技术生成

1、Spark Streaming概述

Spark Streaming是SparkCore API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。
Spark Streaming支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets。
本项目将实时处理Kafka的数据。

2、Spark Streaming访问Kafka方法

kafka是做消息的缓存,数据和业务隔离操作的消息队列,而sparkstreaming是一款准实时流式计算框架,所以二者的整合,是大势所趋。Spark Streaming访问Kafka的方法,有主要的两大版本:kafka0.8 API和kafka1.0 API。
Spark2.3+ 推荐使用kafka1.0 API。
Spark Streaming接收数据的方式有两种:1.利用Receiver接收数据,2.直接从kafka读取数据。Direct方式更适合开发中使用。Direct方式将kafka看成存数据的一方,且主动去Kafka取数据。Direct方式通过周期性地查询Kafka,可以获得每个topic+partition的最新的offset,从而定义每个batch的offset的范围。当处理数据的job启动时,就会使用Kafka的Con

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值