![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark-sql
花言简
这个作者很懒,什么都没留下…
展开
-
spark-sql create table using orc
在分区表中使用不同建表方式,hive和spark-sql中insert overwrite data现象不同。1.问题出现过程1)spark-sql建表CREATE TABLE t_using(`user_no` STRING, `tt_slotid_req` STRING, `ks_slotid_req` STRING,`model` STRING, `follow_time` STRING, `bind_time` STRING, `reg_slotid` STRING, `geo_原创 2022-03-30 15:58:17 · 5492 阅读 · 0 评论 -
spark-sql多级分区 小文件合并
spark-sql表运行缓慢,查看后发现上游数据小文件数多,单个文件6.8M或15M,均在20M以内,每个分区小文件个数达几千个,运行起来非常缓慢;网上很多hive sql的优化,常见hive sql优化合并小文件(spark-sql客户端也可以):set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;set mapreduce.input.fileinputformat.split.ma原创 2022-02-18 20:40:05 · 1666 阅读 · 0 评论 -
sparksql和hive yyyy-mm-dd和yyyymmdd之间的转化问题
发现个问题,我不李姐1.yyyy-mm-dd ---转化--->yyyymmddselect from_unixtime(unix_timestamp('2021-12-15','yyyy-mm-dd'),'yyyymmdd')spark-sql:hive:2.yyyymmdd ---转化--->yyyy-mm-ddselect from_unixtime(unix_timestamp('20211215','yyyymmdd'),'yyyy-mm-d...原创 2021-12-15 18:41:10 · 3941 阅读 · 0 评论 -
hive sql子查询缓慢
查询数据最新分区,有时候数据不是t-1的,需要获取到最后一次的分区数据,之前使用的是最大分区:select user_no,score from table_awhere pday=(select max(pday) from table_a)上述方式为子查询,会扫描所有分区执行非常缓慢,经查询发现,join管理会更快,如下:select user_no ,scorefrom (select max(pday) pday from table_a where pday&g.原创 2021-12-03 18:51:42 · 1820 阅读 · 0 评论 -
python脚本中sparksql split |竖杠竖线
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入python脚本中需要拆分 ‘|’ 连接字段,需要5个 反斜杠 \转义如: spark-sql -e ‘select sp原创 2021-10-19 22:19:49 · 1005 阅读 · 0 评论