![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
【大数据】填坑大作战
文章平均质量分 59
怀瑾握瑜的嘉与嘉
大数据萌新,期待与您共同成长
展开
-
spark调优(三):持久化减少二次查询
Spark中对于一个RDD执行多次算子的默认原理是这样的:每次你对一个RDD执行一个算子操作时,都会重新从源头处计算一遍,计算出那个RDD来,然后再对这个RDD执行你的算子操作。这种方式的性能是很差的。原创 2022-12-03 14:24:09 · 209 阅读 · 1 评论 -
spark调优(二):UDF减少JOIN和判断
平时写sql语句的时候经常会有大表与小标做关联查询,然后再进行group by等逻辑分组处理,或者是有很多判断条件,sql里有很多if语句,一些区间类的结构查询,这种sql语句直接放到spark上执行,会有大量的shuffle,而且执行时间巨慢。原创 2022-12-02 09:16:05 · 266 阅读 · 0 评论 -
spark调优(一):从hql转向代码
对于hql相对复杂的一些操作,尤其是对原始数据,一定要考虑数据量的问题,数据量大到一定程度,不是怼资源可以过去的了,而且这样优化的空间也会变得很少原创 2022-12-01 09:42:58 · 595 阅读 · 0 评论 -
hive数据导入:从查询数据导入
本文介绍hive数据导入的一种方法,从查询数据导入。原创 2022-11-30 10:00:42 · 626 阅读 · 0 评论 -
hive数据导入:文件导入
本文介绍hive数据导入的一种方法,从文件导入。原创 2022-11-28 09:10:37 · 549 阅读 · 0 评论 -
hive Error SemanticException Unable to fetch table
一系列奇怪的操作后(建表中断、删表插入等。。)hive表想删除报错> select * from tablename limit 2;Error: Error while compiling statement: FAILED: SemanticException Unable to fetch table tablename. null (state=42000,code=40000)> drop table tablename;经过百度,找到一个解决问题的办法操作h.转载 2021-11-12 16:44:45 · 2401 阅读 · 1 评论 -
spark执行后报错physical memory used. Consider boosting spark.yarn.executor.memoryOverhead
使用spark运行数据处理事,虽然可以成功运行,但是看spark监控有fail出现,观察日志,发现有报错信息[ERROR]method:org.apache.spark.internal.Logging$class.logError(Logging.scala:70)Lost executor Container killed by YARN for exceeding memory limits. 17.0 GB of 17 GB physical memory used. Consider原创 2021-11-12 08:50:15 · 1472 阅读 · 0 评论