大数据工具
文章平均质量分 60
我从大数据中找个零
这个作者很懒,什么都没留下…
展开
-
HIVESQL的列转行和行转列使用总结
hivesql的行转列以及列转行在实际中的应用原创 2022-11-09 14:22:18 · 1232 阅读 · 1 评论 -
使用hive insert语句时小文件合并
前言本人集群使用的是cdh5.9.1版本,hive1.1.1,Hadoop2.6。hive中有个数据表有5个分区,每个分区的数据以txt形式存储,大小3G多。想要把当前数据表的数据进行压缩,存储到以orc格式存储的数据表中去。问题使用insert语句将数据进行迁移时,发现orc格式的表中的分区文件达到了10多个,每个文件大小平均20MB。HDFS的多个小文件对于namenode的压力很大,而且在执行mapreduce任务时会导致task过多,占用集群资源。解决调解一下配置参数,即可达到合并小文件的原创 2020-06-03 14:12:51 · 1418 阅读 · 0 评论 -
mapreduce分组求topN问题
问题描述现在有各个地区的物品的销售额数据(非真实的,模拟出来的)。然后把每个地区的销量top5的商品。数据如下:三个字段分别对应地区、商品名称、销售额,字段直接用空格隔开。解决办法这是一个很经典的分组求topN的问题,无论是在spark还是mapreduce都会遇到类似的问题。我们要做到的就是举一反三,将这个问题彻底击破。解法一我们将数据使用map读取过来之后,将地区作为key输出,...原创 2019-11-15 17:06:20 · 852 阅读 · 0 评论 -
cdh5.9运行mapreduce uber任务报java.lang.RuntimeException: native snappy library not available错误
1.问题描述在对yarn进行了uber任务配置之后,运行了一个word count的mapreduce任务。控制台显示的已经在uber model下了:但是运行完了之后发现任务失败。接着查看了运行日志,发现报这个错误:2019-11-12 15:20:18,565 INFO [uber-SubtaskRunner] org.apache.hadoop.mapred.TaskAttemptL...原创 2019-11-12 15:53:35 · 1062 阅读 · 0 评论 -
cdh5.9.3上spark on yarn和spark Stand alone配置冲突的问题
问题描述:今天在自己搭建的集群上跑spark任务时(Stand alone模式下),命令如下:spark-submit --class com.liu.Demo.JavaSparkWordCount --master spark://node02:7077 --executor-memory 1G --total-executor-cores 1 Spark-1.0-SNAPSHOT.jar ...原创 2019-10-09 15:34:10 · 265 阅读 · 0 评论