自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Flink快速入门

Apache Flink概述Flink 是构建在数据流之上的一款有状态的流计算框架,通常被人们称为第三代大数据分析方案第一代大数据处理方案:基于Hadoop的MapReduce 静态批处理 | Storm 实时流计算 ,两套独立的计算引擎,难度大(2014年9月)第二代大数据处理方案:Spark RDD 静态批处理、Spark Streaming(DStream)实时流计算(实时性差),统一的计算引擎,难度小(2014年2月)第三代大数据分析方案:Apache Flink DataStrea

2021-01-06 15:25:30 473 1

原创 Structured Streaming详解及实用样例

Structured Streaming什么是Structured Streaming泛指使用SQL操作Spark的流处理。Structured Streaming是一个scalable 和 fault-tolerant 流处理引擎,该引擎是构建Spark SQL之上。可以使得用户以静态批处理的方式去计算流处理。Structured Streaming底层毁掉用SparkSQL 引擎对流数据做增量和持续的更新计算并且输出最终结果。用户可以使用 Dataset/DataFrame API完成流处理中的常见

2020-11-30 17:45:33 1476 1

原创 Spark Sql实战详解

Spark SQLSpark SQL是构建在Spark RDD之上的一款ETL(Extract Transformation Load)工具,这类似于构建在MapReduce之上的1.x版本的Hive。同Spark RDD的不同之处在于Spark SQL的API可以给Spark计算引擎提供更多的信息(计算数据结构、转换算子),Spark计算引擎可以根据Spark SQL提供的信息优化底层计算任务。目前为止,Spark SQL提供了两种风格的交互式API:Dataset API/SQL脚本。Dataset

2020-11-30 17:41:51 409

原创 Spark核心RDD,从理论到实践

Apache Spark框架概述Apache Spark是一个快如闪电的统一的分析引擎(仅仅是一款分析引擎,不提供存储服务)快:相比较于第一代基于磁盘计算的离线分析框架MapReduce而言,Spark基于内存计算 较快统一:Spark提供统一的API访问接口,实现了批处理和流处理的统一,并且提供ETL功能同时提供对大规模数据集的全栈式解决方案:批处理、流处理、SQL、Machine Learning、图形关系分析等计算速度快的原因使用先进的DAG(有向无环图)设计MapReduce:矢

2020-11-11 17:05:57 501

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除