![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
pengpenhhh
大数据工程师,数据从业者
展开
-
scala-tools mavent 打包出错原因
scala-tools 打包出错问题原创 2022-07-24 14:35:24 · 476 阅读 · 0 评论 -
嘿!大数据 呵! 小文件,对小文件重拳出击!
大数据平台小文件解决办法1. 背景平时只是在大数据平台上写 sparksql 不关注大数据平台文件,今天看了下,发现每个表对应hdfs上的文件数量很对,而且大小不一我们知道这有两个影响:文件数量越多,查询扫描的效率越低文件大小不一,会导致数据倾斜,降低查询效率所以小文件越来越多的问题,急需解决2.解决办法由于我是采用写sparksql的方式生成这些表数据的,所以解决办法也是针对sql脚本的,如果是spark程序也是类似针对两个影响1)第一拳,减少小文件数量set spark.sql.原创 2021-03-30 19:50:00 · 94 阅读 · 0 评论 -
insert overwrite自我覆盖的spark替代语法
insert overwrite自我覆盖的spark替代语法1. 问题背景:当我们使用spark-sql的时候, 使用 insert overwrite table A select * from A 会报错2.解决办法:可以通过临时表的方式解决问题create temporary view TEMP_A asselect * from A;insert overwrite table Aselect * from TEMP_A; ...原创 2021-01-12 17:45:48 · 2302 阅读 · 0 评论 -
大表关联小表hint和explain的使用
spark中大表关联小表hint和explain的使用1. 问题背景:在工作中中遇到个问题,那就是一个 大表A left join 一个很小的表 B查询速度总是很慢, 就想着怎么去优化,于是就查了些资料,得到可以通过设置 broadcastjoin的方式来优化,但是呢,这种方法很多都是使用scala的语法去写dataframe的方式实现,但是这太大费周章了,于是找到了hint的方法2. spark关联方式的知识(broadcast join、shuffle hash join和sort merg原创 2021-01-12 15:55:17 · 751 阅读 · 0 评论 -
超大数据量UV类和PV类问题解方案
超大数据量UV类PV类问题解决方案背景技术使用:基于大数据平台的 spark-sql,有基础能力去处理百亿级数据表问题背景:随着大数据平台和数仓的建设,以及业务极大增加和日常积累,会让单表达到百亿级别这时候就会出现两个典型的场景,就是标题所说的UV场景和PV场景名词解释UV类问题UV 英文就是Unique visitor 即这个网站有多少个访问者,这里就有个用户去重的问题,多次访问需要去重拓展一下就是针对数据表维度进行 count(distinct ) 计算的一类场景,不只是限制在用原创 2021-01-11 20:02:08 · 1106 阅读 · 0 评论