spark
baoxitong
这个作者很懒,什么都没留下…
展开
-
Structured Streaming详解及实用样例
Structured Streaming 什么是Structured Streaming 泛指使用SQL操作Spark的流处理。Structured Streaming是一个scalable 和 fault-tolerant 流处理引擎,该引擎是构建Spark SQL之上。可以使得用户以静态批处理的方式去计算流处理。Structured Streaming底层毁掉用SparkSQL 引擎对流数据做增量和持续的更新计算并且输出最终结果。用户可以使用 Dataset/DataFrame API完成流处理中的常见原创 2020-11-30 17:45:33 · 1470 阅读 · 1 评论 -
Spark Sql实战详解
Spark SQL Spark SQL是构建在Spark RDD之上的一款ETL(Extract Transformation Load)工具,这类似于构建在MapReduce之上的1.x版本的Hive。同Spark RDD的不同之处在于Spark SQL的API可以给Spark计算引擎提供更多的信息(计算数据结构、转换算子),Spark计算引擎可以根据Spark SQL提供的信息优化底层计算任务。目前为止,Spark SQL提供了两种风格的交互式API:Dataset API/SQL脚本。 Dataset原创 2020-11-30 17:41:51 · 404 阅读 · 0 评论 -
Spark核心RDD,从理论到实践
Apache Spark 框架概述 Apache Spark是一个快如闪电的统一的分析引擎(仅仅是一款分析引擎,不提供存储服务) 快:相比较于第一代基于磁盘计算的离线分析框架MapReduce而言,Spark基于内存计算 较快 统一:Spark提供统一的API访问接口,实现了批处理和流处理的统一,并且提供ETL功能 同时提供对大规模数据集的全栈式解决方案:批处理、流处理、SQL、Machine Learning、图形关系分析等 计算速度快的原因 使用先进的DAG(有向无环图)设计 MapReduce:矢原创 2020-11-11 17:05:57 · 500 阅读 · 0 评论