使用hadoop mapperreduce来统计大文件的行数-续1

最新推荐文章于 2022-12-21 19:21:33 发布

weixin_33860722

最新推荐文章于 2022-12-21 19:21:33 发布

阅读量308

点赞数

文章标签：大数据 java python

原文链接：https://my.oschina.net/u/914897/blog/614912

版权

2019独角兽企业重金招聘Python工程师标准>>>

使用前面的脚本与直接使用 wc –l 来计算大文件的行数进行比较，具体结果如下：

文件大小	文件行数	Wc –l 时间(秒)	Mapperreduce 时间(秒)
5.8g	2497440	4	171
103g	960000000	280	2172

可以看出，直接使用wc –l 进行统计的效率要比使用hadoop mapperreduce来统计高比较多，但因为使用hadoop mapperreduce统计时要把文件上传到hdfs上，而上传这个过程实际上会花费很长的时间，于是修改了代码去除了上传文件的过程（这两个文件在前面测试时已经上传到hdsf上了），具体脚本如下：

#!/bin/bash
file_name=$1
#删除结果目录
hadoop fs -rm -r /bigdata/output/test/
#统计行数
hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-streaming-1.0.1.jar -files count.sh -input /bigdata/input/test/$file_name -output /bigdata/output/test/ -mapper 'wc -l' -reducer "sh count.sh"

又重新对这两个文件进行了测试，具体结果如下：