SPARK初识

最新推荐文章于 2022-12-08 12:50:57 发布

JIE_ling8

最新推荐文章于 2022-12-08 12:50:57 发布

阅读量124

点赞数

分类专栏：总结文章标签： spark 大数据 big data

本文链接：https://blog.csdn.net/JIE_ling8/article/details/121218497

版权

总结专栏收录该内容

56 篇文章 1 订阅

订阅专栏

做项目基本流程
3、串联整个流程即标准化及正式上线
2、解决关键性问题
1、梳理数据流程
解决关键性问题
对比差异点
1、数据的文件组织形式不同
2、数据的数据格式不同
相同点
数据流程一样
数据目标也是一样
曝光
Exposure
广告领域专业术语
Pv:page visit,曝光一次即为一个pv。
Uv: uniq visit,或者叫user visit，
即用户去重后的统计。
Spark的背景、定义、特点
背景
MapReduce计算和磁盘交互
Spark计算和内存交互
Spark速度远远快于MapReduce
MapReduce，在机器学习、图计算等方面支持有限，性能效率表现比较差。
Spark Core：
包含Spark的基本功能；尤其是定义RDD(弹性分布式数据集，resilient distributed dataset)的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上的
spark1.x与2.x的优缺点对比
优点
API抽象更高级、更统一，包括在spark-core,sparksql,sparksession等方面，学习更简单，开发效率更高，执行效率综合提升明显。
统一DataFrames和DataSets为DataSets，API进行了全部统一，简化学习和编程复杂度。
基本定位是低层API编程延用RDD，高级API编程均为DataSets，而大多数情况下用DataSets均可以解决问题。
spark-streaming基于spark sql进行了API更高级抽象，即structured streaming(结构化流式编程），易用性和性能提高。
对诸多组件中的旧的rdd计算逻辑用DataFrame或DataSet进行了重写优化，并扩充了更多的算法。
缺点
对以前版本不是完全兼容，只是绝大部分兼容。

阿里评测题。

JIE_ling8

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SPARK初识

做项目基本流程3、串联整个流程即标准化及正式上线2、解决关键性问题1、梳理数据流程解决关键性问题对比差异点1、数据的文件组织形式不同2、数据的数据格式不同相同点数据流程一样数据目标也是一样曝光Exposure广告领域专业术语Pv:page visit,曝光一次即为一个pv。Uv: uniq visit,或者叫user visit，即用户去重后的统计。Spark的背景、定义、特点背景MapReduce计算和磁盘交互Spark计算和内存交互Spark速度远远快于Ma..
复制链接

扫一扫