Hadoop的改进实验（中文分词词频统计及英文词频统计）博文目录结构

最新推荐文章于 2024-08-28 21:56:33 发布

weixin_30562507

最新推荐文章于 2024-08-28 21:56:33 发布

阅读量102

点赞数

文章标签：大数据 python java

原文链接：http://www.cnblogs.com/bitpeach/p/3756145.html

版权

声明：

　　1）本文由我bitpeach原创撰写，转载时请注明出处，侵权必究。

2）本小实验工作环境为Windows系统下的百度云（联网），和Ubuntu系统的hadoop1-2-1（自己提前配好）。如不清楚配置可看《Hadoop之词频统计小实验初步配置》

3）本文由于过长，无法一次性上传。下面是五个部分的简介：

　　　　一是简要介绍百度云；

　　　　二是作基本的英文词频统计（在百度云下）。至于Ubuntu下的基本词频统计，仍然可以看《Hadoop之词频统计小实验初步配置》；

　　　　三是改进英文词频统计，简单修改了部分代码，在此要感谢Joyce0625的《查看Hadoop-1.2.1里面的例子jar并对WordCount进行修改》。是参考了他的博文才写出来的；

　　　　四是单机Hadoop（Ubuntu）下的中文分词并作词频统计的，为什么不在百度云上作，具体原因参见博文，并深刻感激网友岁月如歌的《Hadoop中文词频统计》，没有他的博文指导我写不出来，并与他邮件请教几次，真的很感谢他！补充：发现岁月如歌的博客这篇博文不见了，这里提供中文词频统计的其他博客参考阅读地址，地址1或地址1原文，地址2。

　　　　五是由于上述都是java程序，那么想利用hadoop的python接口，即Streaming模式下用python去做英文词频统计。这个是简单试水，希望后来人继续探索！

本文抛砖引玉，感谢帮助我的人！

-----------------------------------------------------------------------------------------------------------------------

《Hadoop的改进实验（中文分词词频统计及英文词频统计）》全文有五个部分，我尝试一次性上传，总是不成功。

现发布博文，决定分成四篇。

《Hadoop的改进实验（中文分词词频统计及英文词频统计）（1/4）》，主要描述第一部分，第二部分，第三部分

《Hadoop的改进实验（中文分词词频统计及英文词频统计）（2/4）》，主要描述第四部分的前半部分

《Hadoop的改进实验（中文分词词频统计及英文词频统计）（3/4）》，主要描述第四部分的后半部分（= =因为第四部分实在是太长，只能分隔开上传）

《Hadoop的改进实验（中文分词词频统计及英文词频统计）（4/4）》，主要描述第五部分

<<<<<<<<< 写在文章最后的小额打赏 >>>>>>>>>

如果读者亲愿意的话，可以小额打赏我，感谢您的打赏。您的打赏是我的动力，非常感激。

必读：如您愿意打赏，打赏方式任选其一，本页面右侧的公告栏有支付宝方式打赏，微信方式打赏。

避免因打赏产生法律问题，两种打赏方式的任一打赏金额上限均为5元，谢谢您的支持。

如有问题，请24小时内通知本人邮件。

转载于:https://www.cnblogs.com/bitpeach/p/3756145.html

weixin_30562507

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop的改进实验（中文分词词频统计及英文词频统计）博文目录结构

声明：　　1）本文由我bitpeach原创撰写，转载时请注明出处，侵权必究。2）本小实验工作环境为Windows系统下的百度云（联网），和Ubuntu系统的hadoop1-2-1（自己提前配好）。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3）本文由于过长，无法一次性上传。下面是五个部分的简介：　　　　一是简要介绍百度云；　　　　二是作基本的英文词频...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。