![](https://img-blog.csdnimg.cn/20200606121952359.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
BigData - SparkSql
SparkSql相关
BF-LoneSilverWind
睿智 灵动 从容 淡定
展开
-
Spark优化
1. 资源调优1) 在部署spark集群中指定资源分配的默认参数在spark安装包的conf下spark-env.shSPARK_WORKER_CORESSPARK_WORKER_MEMORYSPARK_WORKER_INSTANCES 每台机器启动worker数2) 在提交Application的时候给当前的Application分配更多的资源提 交命令选项:(在提交Applica...原创 2020-01-10 18:56:48 · 175 阅读 · 0 评论 -
UDF & UDAF & UDTF区别
UDF:用户自定义函数 → 1对1UDAF:用户自定义聚合函数 → 1对多UDTF: 用户自定义生成函数 → 多对1原创 2020-01-09 21:02:43 · 170 阅读 · 0 评论 -
SparkSql 01 介绍
1. SharkShark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎,由于底层的计算采用了Spark,性能比MapReduce的Hive普遍快2倍以上,当数据全部load在内存的话,将快10倍以上,因此Shark可以作为交互式查询应用服务来使用。除了基于Spark的特性外,Shark是完全兼容Hive的语法,表结构以及UDF函数等,已有的Hive Sql可以直接进行迁移至Sh...原创 2019-12-30 19:31:25 · 103 阅读 · 0 评论 -
SparkSql 02 dataset表创建
写sql之前需要先创建SparkSession对象基本格式:// SparkSession对象SparkSession sparkSession = SparkSession.builder() .appName("sql") .master("local") .getOrCreate();创建Dataset(表)两种方式代码示例:p...原创 2019-12-30 19:59:07 · 483 阅读 · 0 评论 -
SparkSql 03 Spark On Hive的配置
1. 在Spark客户端配置spark On hive在Spark客户端安装包下spark-2.3.1/conf中创建文件hive-site.xml:配置hive的metastore路径<configuration> <property> <name>hive.metastore.uris</name> &...原创 2019-12-31 15:17:23 · 87 阅读 · 0 评论 -
SparkSql 04 序列化知识
序列化与反序列化序列化是将对象状态转换为可保持或传输的格式的过程。与序列化相对的是反序列化,它将流转换为对象。这两个过程结合起来,可以轻松地存储和传输数据。Serializable接口 & serialVersionUID一个对象序列化的接口,一个类只有实现了Serializable接口,它的对象才能被序列化。接口里面什么内容都没有,我们可以将它理解成一个标识接口。从说明中我...原创 2019-12-31 11:49:17 · 370 阅读 · 0 评论 -
SparkSql 05 自定义函数UDF和UDAF
1. UDF:用户自定义函数。java:SparkSession sparkSession = SparkSession .builder() .appName("udf") .master("local") .getOrCreate();JavaSparkCon...原创 2019-12-31 15:22:16 · 182 阅读 · 0 评论 -
SparkSql 06 开窗函数
row_number()row_number() 开窗函数是按照某个字段分组,然后取另一字段的前几个的值,相当于 分组取topN开窗函数格式:row_number() over (partitin by xxx order by xxx )java代码示例:SparkSession sparkSession = SparkSession .builder(...原创 2019-12-31 19:59:17 · 213 阅读 · 0 评论