2019年02月_焦焦^_^

10月 06月 02月 01月

原创 Spark Streaming:工作原理

Spark Streaming简介Spark Streaming是Spark Core API的一种扩展，它可以用于进行大规模、高吞吐量、容错的实时数据流的处理。它支持从很多种数据源中读取数据，比如Kafka、Flume、Twitter、ZeroMQ、Kinesis或者是TCP Socket。并且能够使用类似高阶函数的复杂算法来进行数据处理，比如map、reduce、join和window。处理...

2019-02-26 11:26:35 1978

原创 Spark Streaming：DStream的transformationy及output操作

updateStateByKeyupdateStateByKey操作允许您在使用新的信息持续更新时保持任意状态public class UpdateStateByKeyWordCount { public static void main(String[] args) throws InterruptedException { SparkConf conf = new SparkCo...

2019-02-19 11:39:50 295

原创 Spark Streaming：输入DStream之Kafka数据源

基于Receiver的方式这种方式使用Receiver来获取数据。Receiver是使用Kafka的高层次Consumer API来实现的。receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的，然后Spark Streaming启动的job会去处理那些数据在默认的配置下，这种方式可能会因为底层的失败而丢失数据。如果要启用高可靠机制，让数据零丢失，就必须启用S...

2019-02-15 16:05:04 390

原创 Spark SQL:运行原理

Spark SQL的运行过程SQL在Spark执行要经历以下几步：用户提交SQL文本解析器将SQL文本解析成逻辑计划分析器结合Catalog对逻辑计划做进一步分析，验证表是否存在，操作是否支持等优化器对分析器分析的逻辑计划做进一步优化，如将过滤逻辑下推到子查询，查询改写，子查询共用等Planner再将优化后的逻辑计划根据预先设定的映射逻辑转换为物理执行计划物理执行计划做RDD计算...

2019-02-13 16:36:44 1793

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人