Spark
文章平均质量分 87
Spark 再回首
南宫齐世伟
这个作者很懒,什么都没留下…
展开
-
Spark - Core 随笔
SparkCore第一章 概述1.1 概念Spark是一种基于内存的快速、通用、可扩展的大数据的分析计算引擎。1.2 Spark & FlinkSpark : 主要适用于离线计算业务中Flink : 主要适用于实时计算业务中1.3 Spark & Hadoop出现的时机:Hadoop1.x ~ Hadoop2.xHadoopSpark典型基础平台,包含计算,存储调度分布式计算工具场景大规模数据集的批处理迭代计算,交互式计原创 2021-04-13 23:04:20 · 941 阅读 · 0 评论 -
UDF UDAF UDTF 区别
UDF UDAF UDTF 区别UDF概念:User-Defined-Function 自定义函数 、一进一出;只对单行数据产生作用;实际使用时,UDF函数以匿名函数的形式进行操作使用背景:系统内置函数无法解决实际的业务问题,需要开发者自己编写函数实现自身的业务实现诉求。应用场景非常多,面临的业务不同导致个性化实现很多,故udf很需要。意义:函数扩展得到解决,极大丰富了可定制化的业务需求。Input/Output要求-要解决的问题in:out=1:1,只能输入一条记录原创 2021-03-31 19:09:54 · 1052 阅读 · 0 评论 -
SparkSQL
SparkSQL第1章 Spark概述1.1 SparkSQL是什么Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。1.2 SparkSQL and HiveSparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具。Hive是早期唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,降低的运行效率,为原创 2021-03-22 13:55:27 · 194 阅读 · 0 评论