SparkSQL
文章平均质量分 58
一叶知秋--
终究是不如意
展开
-
SparkSQL模块中DataFrame常用API操作
学习目标: 对SparkSQL2.x模块中DataFrame的API操作进行整理。在工作中多个业务场景应用SparkSQL模块完成离线批处理操作,对海量历史数据处理和分析,分析结果数据,供下一步数据应用进行使用。并且在性能上解决了Hive方面的性能短板问题。在此记录下对SparkSQL模块中DataFrame的API常用操作。 学习内容: 1、 掌握DataFrame中常用api操作,包含:①数据源读取与保存。②在DataFrame中ETL操作。 2、流程:①应用spark对象完成声明操作 ps.原创 2020-11-13 14:40:05 · 695 阅读 · 0 评论 -
SparkRDD+SparkSession进行数据清洗与数据分析并迁移至数据库中
SparkSQL+SparkRDD对中国保险汽车安全指数数据测试进行清洗与分析 Spark SQL是构建在Spark RDD之上的一款ETL(Extract Transformation Load)工具,这类似于构建在MapReduce之上 的1.x版本的Hive。同Spark RDD的不同之处在于Spark SQL的API可以给Spark计算引擎提供更多的信息(计算数据结 构、转换算子),Spark计算引擎可以根据Spark SQL提供的信息优化底层计算任务。目前为止,Spark SQL提供了两 种风格的原创 2020-05-22 16:21:50 · 977 阅读 · 0 评论 -
SparkSQL 使用UDF实现自定义函数
一、介绍 Spark SQL中自定义函数包括UDF和UDAF 自定义函数 UDF:一进一出 UDAF:多进一出 二、UDF函数 这里实现自定义函数为截取字段:strSub package SparkSQL import org.apache.spark.sql.types.{StringType, StructField, StructTy...原创 2019-07-11 10:58:04 · 1023 阅读 · 0 评论 -
SparkSQL 使用UDAF实现自定义聚合函数
一、介绍 Spark SQL中自定义函数包括UDF和UDAF 自定义函数 UDF:一进一出 UDAF:多进一出 √ 二、UDAF函数 UDAF:User Defined Aggregate Function。用户自定义聚合函数。是Spark 1.5.x引入的最新特性。 * UDF:其实更多的是针对单行输入,返回一个输出 * 这里的UDAF,则可...原创 2019-07-12 09:32:22 · 326 阅读 · 0 评论 -
SparkSQL 使用UDAF实现自定义聚合函数
一、介绍 Spark SQL中自定义函数包括UDF和UDAF (先前已经发布一篇SparkSQL的UDF函数,现在为大家讲解一下UDAF自定义聚合函数) 自定义函数 UDF:一进一出 UDAF:多进一出 √ 二、UDAF函数 UDA:户自定义聚合函数,类似在group by之后使用的sum,avg等。 首先创建class继承接口UserD...原创 2019-09-26 11:13:58 · 193 阅读 · 0 评论