- 博客(4)
- 收藏
- 关注
原创 Flink快速入门
Apache Flink 概述 Flink 是构建在数据流之上的一款有状态的流计算框架,通常被人们称为第三代大数据分析方案 第一代大数据处理方案:基于Hadoop的MapReduce 静态批处理 | Storm 实时流计算 ,两套独立的计算引擎,难度大(2014年9月) 第二代大数据处理方案:Spark RDD 静态批处理、Spark Streaming(DStream)实时流计算(实时性差),统一的计算引擎,难度小(2014年2月) 第三代大数据分析方案:Apache Flink DataStrea
2021-01-06 15:25:30
594
原创 Structured Streaming详解及实用样例
Structured Streaming 什么是Structured Streaming 泛指使用SQL操作Spark的流处理。Structured Streaming是一个scalable 和 fault-tolerant 流处理引擎,该引擎是构建Spark SQL之上。可以使得用户以静态批处理的方式去计算流处理。Structured Streaming底层毁掉用SparkSQL 引擎对流数据做增量和持续的更新计算并且输出最终结果。用户可以使用 Dataset/DataFrame API完成流处理中的常见
2020-11-30 17:45:33
1654
1
原创 Spark Sql实战详解
Spark SQL Spark SQL是构建在Spark RDD之上的一款ETL(Extract Transformation Load)工具,这类似于构建在MapReduce之上的1.x版本的Hive。同Spark RDD的不同之处在于Spark SQL的API可以给Spark计算引擎提供更多的信息(计算数据结构、转换算子),Spark计算引擎可以根据Spark SQL提供的信息优化底层计算任务。目前为止,Spark SQL提供了两种风格的交互式API:Dataset API/SQL脚本。 Dataset
2020-11-30 17:41:51
490
原创 Spark核心RDD,从理论到实践
Apache Spark 框架概述 Apache Spark是一个快如闪电的统一的分析引擎(仅仅是一款分析引擎,不提供存储服务) 快:相比较于第一代基于磁盘计算的离线分析框架MapReduce而言,Spark基于内存计算 较快 统一:Spark提供统一的API访问接口,实现了批处理和流处理的统一,并且提供ETL功能 同时提供对大规模数据集的全栈式解决方案:批处理、流处理、SQL、Machine Learning、图形关系分析等 计算速度快的原因 使用先进的DAG(有向无环图)设计 MapReduce:矢
2020-11-11 17:05:57
571
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅