baoxitong-CSDN博客

原创 Flink快速入门

Apache Flink概述Flink 是构建在数据流之上的一款有状态的流计算框架，通常被人们称为第三代大数据分析方案第一代大数据处理方案：基于Hadoop的MapReduce 静态批处理 | Storm 实时流计算，两套独立的计算引擎，难度大（2014年9月）第二代大数据处理方案：Spark RDD 静态批处理、Spark Streaming（DStream）实时流计算（实时性差），统一的计算引擎，难度小（2014年2月）第三代大数据分析方案：Apache Flink DataStrea

2021-01-06 15:25:30 611

原创 Structured Streaming详解及实用样例

Structured Streaming什么是Structured Streaming泛指使用SQL操作Spark的流处理。Structured Streaming是一个scalable 和 fault-tolerant 流处理引擎，该引擎是构建Spark SQL之上。可以使得用户以静态批处理的方式去计算流处理。Structured Streaming底层毁掉用SparkSQL 引擎对流数据做增量和持续的更新计算并且输出最终结果。用户可以使用 Dataset/DataFrame API完成流处理中的常见

2020-11-30 17:45:33 1683 1

原创 Spark Sql实战详解

Spark SQLSpark SQL是构建在Spark RDD之上的一款ETL（Extract Transformation Load）工具，这类似于构建在MapReduce之上的1.x版本的Hive。同Spark RDD的不同之处在于Spark SQL的API可以给Spark计算引擎提供更多的信息（计算数据结构、转换算子），Spark计算引擎可以根据Spark SQL提供的信息优化底层计算任务。目前为止，Spark SQL提供了两种风格的交互式API：Dataset API/SQL脚本。Dataset

2020-11-30 17:41:51 506

原创 Spark核心RDD，从理论到实践

Apache Spark框架概述Apache Spark是一个快如闪电的统一的分析引擎（仅仅是一款分析引擎，不提供存储服务）快：相比较于第一代基于磁盘计算的离线分析框架MapReduce而言，Spark基于内存计算较快统一：Spark提供统一的API访问接口，实现了批处理和流处理的统一，并且提供ETL功能同时提供对大规模数据集的全栈式解决方案：批处理、流处理、SQL、Machine Learning、图形关系分析等计算速度快的原因使用先进的DAG（有向无环图）设计MapReduce：矢

2020-11-11 17:05:57 590

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人