Hadoop的改进实验(中文分词词频统计及英文词频统计) 博文目录结构

声明:

  1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。

    2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置

    3)本文由于过长,无法一次性上传。下面是五个部分的简介:

    一是简要介绍百度云;

    二是作基本的英文词频统计(在百度云下)。至于Ubuntu下的基本词频统计,仍然可以看《Hadoop之词频统计小实验初步配置》;

    三是改进英文词频统计,简单修改了部分代码,在此要感谢Joyce0625的《查看Hadoop-1.2.1里面的例子jar并对WordCount进行修改》。是参考了他的博文才写出来的;

    四是单机Hadoop(Ubuntu)下的中文分词并作词频统计的,为什么不在百度云上作,具体原因参见博文,并深刻感激网友岁月如歌的《Hadoop中文词频统计》,没有他的博文指导我写不出来,并与他邮件请教几次,真的很感谢他!补充:发现岁月如歌的博客这篇博文不见了,这里提供中文词频统计的其他博客参考阅读地址,地址1地址1原文地址2

    五是由于上述都是java程序,那么想利用hadoop的python接口,即Streaming模式下用python去做英文词频统计。这个是简单试水,希望后来人继续探索!

        本文抛砖引玉,感谢帮助我的人!

-----------------------------------------------------------------------------------------------------------------------

《Hadoop的改进实验(中文分词词频统计及英文词频统计)》全文有五个部分,我尝试一次性上传,总是不成功。

现发布博文,决定分成四篇。

Hadoop的改进实验(中文分词词频统计及英文词频统计)(1/4)》,主要描述第一部分,第二部分,第三部分

Hadoop的改进实验(中文分词词频统计及英文词频统计)(2/4)》,主要描述第四部分的前半部分

Hadoop的改进实验(中文分词词频统计及英文词频统计)(3/4)》,主要描述第四部分的后半部分(= =因为第四部分实在是太长,只能分隔开上传)

Hadoop的改进实验(中文分词词频统计及英文词频统计)(4/4)》,主要描述第五部分

 

 


<<<<<<<<<  写在文章最后的小额打赏  >>>>>>>>>

如果读者亲愿意的话,可以小额打赏我,感谢您的打赏。您的打赏是我的动力,非常感激。

必读:如您愿意打赏,打赏方式任选其一,本页面右侧的公告栏有支付宝方式打赏,微信方式打赏。

避免因打赏产生法律问题,两种打赏方式的任一打赏金额上限均为5元,谢谢您的支持。

如有问题,请24小时内通知本人邮件。

 

转载于:https://www.cnblogs.com/bitpeach/p/3756145.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值