spark
请叫我超哥
这个作者很懒,什么都没留下…
展开
-
spark处理数据倾斜、小文件问题操作手册
spark经验总结原创 2022-07-21 18:26:42 · 564 阅读 · 0 评论 -
hive、sparksql行转列 列转行详解
行转列、列转行详解原创 2022-07-01 18:28:30 · 1017 阅读 · 0 评论 -
spark的分区器hashpartitioner、RangePartitioner,分布式排序原理
spark大多数算子使用的都是默认分区器HashPartitioner,HashPartitioner会对数据的key进行 key.hascode%numpartitions 计算,得到的数值会放到对应的分区中,这样能较为平衡的分配数据到partition。RangePartitioner:它是在排序算子中会用到的分区器,比如sortbykey、sortby、orderby等。该分区器先对输入的数据的key做采样,来估算Key的分布,然后按照指定的排序切分range,尽量让每个partition对应的原创 2020-08-06 17:08:02 · 809 阅读 · 0 评论 -
sparkstreaming的状态定时清除
两种方式:sparkStreaming一般都是部署在linux上的,且7*24运行,如果不去清除状态信息,内部数据会非常大,checkpoint也会越来越慢。一般对于一天一统计的业务可以去定时清除。1:可以写shell脚本去重启spark任务,通过ps指令找到spark-submit的进程号,kill -9强制结束进程,然后再重启即可。2:利用spark的特殊方法去定时结束sparkStre...原创 2019-05-27 11:06:00 · 959 阅读 · 3 评论 -
spark的问题集锦
和小伙伴们一起做这个项目好久了,中间也是遇到了许多问题,这里自我总结下,防止下次再犯!项目在开发方面主要是基于spark开发的,里面使用到了spark core、spark sql、spark Streaming去进行编程,项目中有多个模块,像用户session分析模块、单条转换率模块、各区域热门商品模块、广告实时点击流统计模块等。项目中遇到的问题:1、classNotFound问题使用m...原创 2019-05-23 21:25:15 · 371 阅读 · 2 评论 -
sparksql table not found错误
一般情况下可以先去看看是不是自己的表名写错了,当然我遇到的一种情况是下面这样的:使用hiveContext读取一张表,并注册为一张临时表(dataFrame.registerTemptable()),使用sqlContext读取另一张表,并注册为临时表,随后我再使用sqlContext.sql(“两表关联sql语句”),运行报错"table not found",仔细研究之下突然想到了一个知...原创 2019-07-18 11:22:12 · 2238 阅读 · 0 评论 -
本地IDEA远程连接hive的问题解决
1:首先创建好一个maven项目,创建项目这一步我就不说了,如果不会的话请看我的另一篇博客,完成后在porm.xml中加入依赖,这里需要注意要有hadoop-client,且不使用默认的hhadoop-client版本。<dependencies> <!-- https://mvnrepository.com/artifact/org.apache.spark/spar...原创 2019-08-19 17:02:59 · 1943 阅读 · 0 评论