hadoop学习笔记：运行wordcount对文件字符串进行统计案例(1)

最新推荐文章于 2024-09-26 10:06:17 发布

2401_84435976

最新推荐文章于 2024-09-26 10:06:17 发布

阅读量510

点赞数 22

分类专栏： 2024年程序员学习文章标签： hadoop 学习笔记

本文链接：https://blog.csdn.net/2401_84435976/article/details/137898523

版权

2024年程序员学习专栏收录该内容

18 篇文章 0 订阅

订阅专栏

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新Java开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Java开发知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip1024b （备注Java）

正文

[root@192 hadoop-2.7.5]# hdfs dfs -put example.txt /input

检查一下，可以看到，example.txt文件已经在input目录底下了——

[root@192 hadoop-2.7.5]# hdfs dfs -ls /input

Found 1 items

-rw-r–r-- 3 root supergroup 84 2021-10-20 12:43 /input/example.txt

这些准备工作做好后，就可以开始使用hadoop自带的jar包来统计文件example.txt当中各字符的数量了。

二、运行wordcount对文件字符进行统计

直接在NameNode节点对应的服务器上执行——

[root@192 hadoop-2.7.5]# hadoop jar /opt/hadoop/app/hadoop/hadoop-2.7.5/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.5.jar wordcount /input /output

这行指令的大概意思是，分布式计算统计input目录底下的文件中的字符数量，将统计结果reduce到output当中，故而，最后若执行没问题，可以在output目录下获取到统计结果记录。

我第一次执行时，发生了一个异常，即执行完后，日志运行到INFO mapreduce.Job: Running job: job_1631618032849_0002这一行时，就直接卡在了这里，没有任何动静了——

[hadoop@192 bin]$ hadoop jar /opt/hadoop/app/hadoop/hadoop-2.7.5/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.5.jar wordcount /input /output

21/10/20 10:43:29 INFO client.RMProxy: Connecting to ResourceManager at master1/192.168.200.111:8032

21/10/20 10:43:30 INFO input.FileInputFormat: Total input paths to process : 1

21/10/20 10:43:30 INFO mapreduce.JobSubmitter: number of splits:1

21/10/20 10:43:31 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1631618032849_0002

21/10/20 10:43:31 INFO impl.YarnClientImpl: Submitted application application_1631618032849_0002

21/10/20 10:43:31 INFO mapreduce.Job: The url to track the job: http://master1:8088/proxy/application_1631618032849_0002/

21/10/20 10:43:31 INFO mapreduce.Job: Running job: job_1631618032849_0002

百度了一番后，根据一些思路，最后将mapred-site.xml最开始的配置由

<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

mapreduce.framework.name

yarn

改成这里——

mapreduce.job.tracker

hdfs://master1:8001

true

接着，重启了hadoop集群，就正常了，日志信息就没有卡顿，而是一步执行完成，打印以下的日志记录——

过程如果没有出现问题，就可以到最后一步，查看统计完的结果。

三、获取统计结果

以上步骤执行完后，直接输入指令查看output目录下的信息，可以看到，里面生成了两个文件——

[root@192 hadoop-2.7.5]# hdfs dfs -ls /output

Found 2 items

-rw-r–r-- 3 root supergroup 0 2021-10-20 12:47 /output/_SUCCESS

-rw-r–r-- 3 root supergroup 101 2021-10-20 12:47 /output/part-r-00000

part-r-00000文件是存放统计结果的，我们查看一下——

[root@192 hadoop-2.7.5]# hdfs dfs -cat /output/part-r-00000

aaa 1

bbb 1

总结

我个人认为，如果你想靠着背面试题来获得心仪的offer，用癞蛤蟆想吃天鹅肉形容完全不过分。想必大家能感受到面试越来越难，想找到心仪的工作也是越来越难，高薪工作羡慕不来，却又对自己目前的薪资不太满意，工作几年甚至连一个应届生的薪资都比不上，终究是错付了，错付了自己没有去提升技术。

这些面试题分享给大家的目的，其实是希望大家通过大厂面试题分析自己的技术栈，给自己梳理一个更加明确的学习方向，当你准备好去面试大厂，你心里有底，大概知道面试官会问多广，多深，避免面试的时候一问三不知。

大家可以把Java基础，JVM，并发编程，MySQL，Redis，Spring，Spring cloud等等做一个知识总结以及延伸，再去进行操作，不然光记是学不会的，这里我也提供一些脑图分享给大家：

希望你看完这篇文章后，不要犹豫，抓紧学习，复习知识，准备在明年的金三银四拿到心仪的offer，加油，打工人！

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip1024b （备注Java）

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！
知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。**

需要这份系统化的资料的朋友，可以添加V获取：vip1024b （备注Java）
[外链图片转存中…(img-E7Dx6cxS-1713384752901)]

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

2401_84435976

关注

22
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录