首先我也是个新手,本次发文章只为记录学习心得,当然能帮到学习的人那就更好了。
废话不多说马上开始吧!
由于本人上大数据课程需要做MapReduce的WordCount实验也就是统计英文单词的出现次数,
这个比较简单就不多说了,今天要说的是利用IK分词对中文进行分词统计。
- 前提准备:这里我已经安装好了Ubantu的伪分布式,带有hadoop和JAVA的所以就不需要准备了,没安装的需要配置Java JDK 安装Hadoop和安装eclipse
- 需要用到Hadoop的插件、IK分词jar包、ChineseWordCount源代码。
打开虚拟机创建一个目录“input”用于存放实验文件
mkdir input
把我们需要实验的文件拖到“input”目录里面,这里我用夏目友人帐(个人喜好)。
把hadoop插件移动到eclipse的plugins里
打开eclipse选择新建项目-》新建MapReduce项目