![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
SparkSQL
文章平均质量分 58
一叶知秋--
终究是不如意
展开
-
SparkSQL模块中DataFrame常用API操作
学习目标:对SparkSQL2.x模块中DataFrame的API操作进行整理。在工作中多个业务场景应用SparkSQL模块完成离线批处理操作,对海量历史数据处理和分析,分析结果数据,供下一步数据应用进行使用。并且在性能上解决了Hive方面的性能短板问题。在此记录下对SparkSQL模块中DataFrame的API常用操作。学习内容:1、 掌握DataFrame中常用api操作,包含:①数据源读取与保存。②在DataFrame中ETL操作。2、流程:①应用spark对象完成声明操作ps.原创 2020-11-13 14:40:05 · 704 阅读 · 0 评论 -
SparkRDD+SparkSession进行数据清洗与数据分析并迁移至数据库中
SparkSQL+SparkRDD对中国保险汽车安全指数数据测试进行清洗与分析Spark SQL是构建在Spark RDD之上的一款ETL(Extract Transformation Load)工具,这类似于构建在MapReduce之上 的1.x版本的Hive。同Spark RDD的不同之处在于Spark SQL的API可以给Spark计算引擎提供更多的信息(计算数据结 构、转换算子),Spark计算引擎可以根据Spark SQL提供的信息优化底层计算任务。目前为止,Spark SQL提供了两种风格的原创 2020-05-22 16:21:50 · 994 阅读 · 0 评论 -
SparkSQL 使用UDF实现自定义函数
一、介绍Spark SQL中自定义函数包括UDF和UDAF自定义函数 UDF:一进一出 UDAF:多进一出二、UDF函数这里实现自定义函数为截取字段:strSubpackage SparkSQLimport org.apache.spark.sql.types.{StringType, StructField, StructTy...原创 2019-07-11 10:58:04 · 1028 阅读 · 0 评论 -
SparkSQL 使用UDAF实现自定义聚合函数
一、介绍Spark SQL中自定义函数包括UDF和UDAF自定义函数 UDF:一进一出 UDAF:多进一出 √二、UDAF函数UDAF:User Defined Aggregate Function。用户自定义聚合函数。是Spark 1.5.x引入的最新特性。 *UDF:其实更多的是针对单行输入,返回一个输出 * 这里的UDAF,则可...原创 2019-07-12 09:32:22 · 328 阅读 · 0 评论 -
SparkSQL 使用UDAF实现自定义聚合函数
一、介绍Spark SQL中自定义函数包括UDF和UDAF(先前已经发布一篇SparkSQL的UDF函数,现在为大家讲解一下UDAF自定义聚合函数)自定义函数 UDF:一进一出 UDAF:多进一出 √二、UDAF函数UDA:户自定义聚合函数,类似在group by之后使用的sum,avg等。首先创建class继承接口UserD...原创 2019-09-26 11:13:58 · 196 阅读 · 0 评论