- 博客(3)
- 资源 (13)
- 收藏
- 关注
原创 Hadoop Pipes编程之C++实现WordCount
Hadoop虽然用java实现,但是同样可以支持其他语言的Map和Reduce。由于需要学习C++方面的Hadoop实现,所以最近一直在研究Hadoop Streaming编程,其中Hadoop pipes允许C++程序员编写mapreduce程序,它允许用户混用C++和Java的RecordReader, Mapper, Partitioner,Rducer和RecordWriter等五个组件,
2014-04-25 23:18:02 2041
原创 Hadoop中文词频统计
学习Hadoop都免不了WordCount,但是都是最简单的例子,而且都是以空格为划分的英文词频的统计,相比于中文,英文的统计显得简单很多,因为中文涉及到很多语义及分词的不同,通常不好统计中文词频,即使是现在的技术,也没有完全能符合人们标准的中文词频统计工具出现,不过现阶段还是有可以使用的工具的,比如IK Analyzer,今天就来尝试一下。先感谢看到的博客指导:http://www.cn
2014-04-13 14:35:24 5203 7
原创 MapReduce Job中全局共享数据的处理办法
在编写MapReduce程序时,经常会遇到这样的问题,全局变量如何保存?如何让每个处理都能获取保存的这些全局变量?使用全局变量是不可避免的,但是在MapRdeuce中直接使用代码级别的全局变量是不现实的。主要是因为继承Mapper基类的Map阶段类的运行和继承Reducer基类的Reduce阶段类的运行都是独立的,并不共享一个Java虚拟机的资源,因此,下面介绍三种在MapReduce编程中相对有
2014-04-13 10:18:46 2923
斯坦福大学自然语言处理公开课课件汇总
2013-12-16
cd-hit-user-guide.pdf 学习cd-hit新手必备!
2013-12-10
putty,可用于链接远程服务器
2013-12-10
android应用大量详细源码
2011-12-15
Connector-j
2011-11-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人