Spark踩坑日记

a18033860865

已于 2022-01-20 17:44:58 修改

阅读量938

点赞数 1

文章标签： spark scala big data

于 2022-01-12 11:19:19 首次发布

本文链接：https://blog.csdn.net/a18033860865/article/details/122449403

版权

Spark日记

一 spark-sql元数据踩坑

踩坑背景：

工作需要我一直常开一个spark-sql进程，然后做了一个需求是重刷某个表的分区数据，重刷任务是在airflow调度的，此时已经有两个spark-sql进程了，刷新完毕后在我常开的spark-sql中去访问该分区数据，报文件找不到的异常（忘记截图），这个文件在分区路径下确实不存在，但是分区下是有数据的。然后重启spark-sql，问题解决。

个人猜测

猜测是元数据引起，每个spark-sql会cache一份metadata，并且每个spark-sql进程相互独立

官网描述：

Spark SQL caches Parquet metadata for better performance. 
When Hive metastore Parquet table conversion is enabled, metadata of those converted tables are also cached. 
If these tables are updated by Hive or other external tools, you need to refresh them manually to ensure consistent metadata.

大概意思就是为了性能，对元数据做了缓存，并且提供了针对每个表的刷新命令

--sql
REFRESH TABLE tableName

//scala
spark.catalog.refreshTable("my_table")

二表增加字段

代码：（增加多个字段信息）

alter table tranadm.name add columns
(col_cnt bigint COMMENT '点击下载次数'
,col_cnt_1 bigint COMMENT '下载完成次数'
,col2 bigint COMMENT '安装完成次数'
,col3 bigint COMMENT '点击下载offer次数'
,col4 bigint COMMENT '下载完成offer次数'
,col5 bigint COMMENT '安装完成offer次数'
);

三特殊函数整理

3.1 pivot函数（透视函数）（行转列）

友情链接（非官方）：https://blog.csdn.net/dafei1288/article/details/99744504

select 
*
from (
	select country,newsid,event,cnt,num 
    	from (select * from pvuv 
         	union all
         	select * from h5_data
         	)
    )
    pivot(
         max(cnt)as cnt,max(num) as num --需要透视的列，需要用计算函数套一层  可以指定别名也可以不指定 只是为了看数据时方便明白其含义
         for event in('h5','zs_new_validex','zs_newscard_cl')
         );

3.2 map_from_arrays函数

函数解释：将两个数组映射为一个map集合

在这里插入图片描述

使用场景：需要将有对应关系的两个数据炸开成多行（默认的列名是 key value）

select
            event
            ,gazj
            ,time_stamp
            ,eparam
            ,explode(map_from_arrays(split(get_json_object(eparam,"$.newsid"),','),split(get_json_object(eparam,"$.cp"),',')))
        from table_name

3.3 trim

函数解释：去除空格或者指定的字符

--去除两头的指定字符
SELECT TRIM(BOTH 'O' FROM 'OOHELLO')
--去除左边的指定字符
SELECT TRIM(LEADING 'O' FROM 'OOHELLO')
--去除右边的指定字符
SELECT TRIM(TRAILING 'O' FROM 'OOHELLO')

四 spark-submit命令参数

4.1 spark.sql.hive.convertMetastoreParquet

spark.sql.hive.convertMetastoreParquet
--官方解释不是特别清晰，大致理解为hive spark的parquet算法不一样，性能也不一样，所以需要这个参数
这个参数默认开启
我遇到的情况是当参数关闭是数据落盘不会直接落到表的location路径下，而是先落到临时路劲下，然后再移动到表的location路径下，从而导致spark任务已经计算完毕，还需要大量的时间来移动数据，yarn计算资源被占有不被释放，
需要注意的是两种parquet是有区别的，比如精度计算是，会有精度损失

在这里插入图片描述

a18033860865

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark踩坑日记

Spark日记一 spark-sql元数据踩坑踩坑背景：工作需要我一直常开一个spark-sql进程，然后做了一个需求是重刷某个表的分区数据，重刷任务是在airflow调度的，此时已经有两个spark-sql进程了，刷新完毕后在我常开的spark-sql中去访问该分区数据，报文件找不到的异常（忘记截图），这个文件在分区路径下确实不存在，但是分区下是有数据的。然后重启spark-sql，问题解决。个人猜测猜测是元数据引起，每个spark-sql会cache一份metadata，并且每个spark-s
复制链接

扫一扫