hadoop中文词频统计WordCount实验

最新推荐文章于 2024-06-30 17:10:23 发布

夏目玲子Ling

最新推荐文章于 2024-06-30 17:10:23 发布

阅读量3.3k

点赞数 8

分类专栏：大数据 hadoop MapReduce 文章标签： hadoop 大数据 big data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_51618005/article/details/121167633

版权

本文记录了一次使用Hadoop进行中文词频统计的实验过程，通过IK分词对中文进行分词并统计出现次数。首先介绍了实验背景和所需环境，包括已安装的Ubantu伪分布式环境，接着详细说明了如何在Eclipse中创建MapReduce项目，添加Hadoop插件和IK分词库，以及设置运行参数。在遇到JRE版本不兼容问题时，调整了项目的Java Compiler设置。最后，实验结果显示未排序，作者手动对结果进行了排序，发现有趣的现象。

摘要由CSDN通过智能技术生成

首先我也是个新手，本次发文章只为记录学习心得，当然能帮到学习的人那就更好了。

废话不多说马上开始吧！

由于本人上大数据课程需要做MapReduce的WordCount实验也就是统计英文单词的出现次数，

这个比较简单就不多说了，今天要说的是利用IK分词对中文进行分词统计。

前提准备：这里我已经安装好了Ubantu的伪分布式，带有hadoop和JAVA的所以就不需要准备了，没安装的需要配置Java JDK 安装Hadoop和安装eclipse
需要用到Hadoop的插件、IK分词jar包、ChineseWordCount源代码。

打开虚拟机创建一个目录“input”用于存放实验文件

mkdir input

把我们需要实验的文件拖到“input”目录里面，这里我用夏目友人帐（个人喜好）。

把hadoop插件移动到eclipse的plugins里

打开eclipse选择新建项目-》新建MapReduce项目

最低0.47元/天解锁文章

夏目玲子Ling

关注

8
点赞
踩
53

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

夏目玲子Ling CSDN认证博客专家 CSDN认证企业博客

码龄4年

1: 原创

143万+: 周排名

155万+: 总排名

3380: 访问

: 等级

24: 积分

1: 粉丝

8: 获赞

1: 评论

53: 收藏

私信

关注

热门文章

hadoop中文词频统计WordCount实验 3381

分类专栏

大数据 1篇
hadoop 1篇
MapReduce 1篇

最新评论

hadoop中文词频统计WordCount实验
m0_63080903: 博主太棒了！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。