![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
小王是个弟弟
个人博客 https://uhope.fun
展开
-
Spark Streaming实现双流join
spark streaming实现双流join,其难点是考虑延迟导致数据过来的批次不一样原创 2020-10-24 11:48:05 · 3961 阅读 · 0 评论 -
SparkStreaming对接Kafka实现黑名单
一、需求在程序运行期间,将点击同一个广告超过10次的用户添加到黑名单二、准备2.1 分析通过代码模拟用户点击行为,并作为kafka的生产者生产数据,SparkStreaming消费kafka数据,并对数据进行分析,将黑名单数据存入mysql中,定义的类有BlackListUtils:工具类,用于产生数据,数据入库等操作UserBehavior:Bean类,用户行为数据的样例类UserClickAdvertising:生产数据,kafka生产者BlackListSparkStreaming:原创 2020-09-27 19:59:26 · 403 阅读 · 0 评论 -
Spark SQL
一、SparkSQL 概述1.1 什么是SparkSQL对于Hive数仓,它提供了类SQL(HQL)语法来操作数仓中的数据,其本质是将HQL装换成MapReduce代码然后提交到集群中执行,可以简化编写MR的程序,使没有系统学习过MR也可以快速入门,但MR的计算框架执行效率低;因此SparkSQL应允而生,可以理解为将sql语句转换为RDD和各种算子依赖,然后提交到集群中允许,继承了Spark的特点,因此SparkSQL执行效率非常高,同时在sql语句的转换过程中会翻译成尽可能高效率的算子依赖相较于不熟原创 2020-09-27 19:24:23 · 326 阅读 · 0 评论 -
Spark Streaming 的checkpoint机制
这里写目录标题Spark Streaming 的checkpoint机制一、什么时候checkpoint二、如何使用checkpointSpark Streaming 的checkpoint机制Spark Streaming若需要24/7不间断的运行,因此Spark Streaming必须对诸如系统错误,JVM出错等与程序逻辑无关的错误(failures)导致Driver所在的节点出错,具备一定的非应用程序出错的容错性。Spark Streaming的Checkpoint机制便是为此设计的,它将足够多的原创 2020-09-24 11:41:40 · 969 阅读 · 0 评论