mapreduce
文章平均质量分 79
小满锅lock
微信公众号 小满锅
展开
-
关于hive on spark的distribute by和group by使用以及小文件合并问题
问题导言最近在使用hive时,发现一些任务的因为使用mapreduce的缘故,跑的太慢了,才几十个G的数据就经常跑一个多小时,于是有了切换spark的想法。但是刚刚切换了spark,第二天发现跑出来的数据文件数大大增加,而且每个文件都非常小,导致下游spark任务为了每个小文件都启动一个task,申请资源对于spark来说是非常消耗资源的,任务又大大延迟了。查了下关于spark合并小文件,目前有几个参数会提供参考。输入端set mapred.max.split.size=256000000;设原创 2021-01-25 23:37:28 · 3700 阅读 · 0 评论 -
java.lang.SecurityException: Invalid signature file digest for Manifest main attributes
hadoop@master:/usr/local/hadoop/spark/spark-data$ spark-submit --master spark:192.168.71.128:7077 --class PageRank project.jarException in thread "main" java.lang.SecurityException: Invalid signat...原创 2019-09-19 17:00:50 · 430 阅读 · 0 评论 -
啥是map啥是reduce
mapredue是根据谷歌的三大论文里面的mapreduce paper的出来的一个hadoop计算引擎。我们现在可以说是ZB时代了,日益所需的大数据时代让我们不得不使用分布式存储,分布式计算,分布式调度。以往的单台计算机已经存储不了我们的数据,也不能很快的计算我们想要实现的过程。今天,就来讨论讨论分布式计算的mapreduce。mapreduce分成map端和reduce端。ma...原创 2019-09-19 21:00:23 · 2294 阅读 · 0 评论