最近做项目,用到了Hadoop架构,本身对C++比较熟悉,虽然接触过JAVA(3年前嵌入式。。)。决定用C++开发相关,以下为转载不错文章。
-----------------------------------------------------------------------分割线--------------------------------------------------------------------------
假设你有上百G的数据,你要统计出这些数据中,含有某些你感兴趣的内容的数据的有多少条,你会怎么做?在硬件条件允许的情况下,用hadoop并行计算是一个不错的选择。
为了使本文得以清晰地说明,我们不妨假设如下的情况:
我们有100G的数据,分别保存在5个文件中,它们位于 /data/ 目录下。这5个数据文件的内容均为相同的格式,即,文件的内容大致如下:
ABCDSDFKJDKF kkk 2890876
SDKFJIEORUEW nnn 1231238
LSFKDFSSDRDE bbb 9234999
说明:每一行内容中,首先是一个12字节的字符串,然后是一个3字节的字符串,然后是一个7个数字组成的字符串。字符串之间是用空格分隔的。
我们的问题是:在这100G的数据中,请统计出第二项字符串为“kkk”和“nnn”的数据分别有多少条?
如果用一个非分布式的应用程序来计算这个问题,如果计算机硬件配置不够强劲的话,那么估计得算到天荒地老了。
而用hadoop来并行计算,一切都是那么简单。
下面,我们就来看看,如何用C++开发一个hadoop上的应用程序,来完成我们的任务。
尽管hadoop平台是用Java写的,但是它仍然支持用C++来开发应用程序,这里不讨论优劣对比,只是基于这样一个事实:有些人觉得用C++写更熟悉,所以我们才用C++写。
先说明:本文基于hadoop 0.20.2版本。
(1)首先我们需要知道map-reduce的基本原理,这里不说了。其次我们需要知道,在用C++编写hadoop应用程序时&