Hadoop
yongh701
这家伙很聪明,什么都没有留下
展开
-
【Hadoop】Hadoop0.20.2的安装
Hadoop现时官网值提供1.x版本与2.x版本,而且力推2.x版本,然而现在市面上大多数书籍与资料都是经典的hadoop-0.20.2.tar.gz版本,据说,其属于Hadoop1.x版本体系,Hadoop1.x版本的安装是大同小异,区别于Hadoop2.x完全推翻重写。不过我觉得还是从现在具有大多数研究的Hadoop0.20.2学起,在官方网站上已经删除了这个2010年的历史版本下载了。不原创 2016-01-25 16:24:38 · 4491 阅读 · 3 评论 -
【Hadoop】Windows下的Eclipse远程连接Linux下的Hadoop0.20.2
在《【Hadoop】Hadoop0.20.2的安装》(点击打开链接)中只是介绍了如何在Linux下部署Hadoop0.20.2。虽然可以在Windows下可以轻松访问部署在Linux虚拟机IP下的50030端口与50070端口,关于Mapreduce与NameNode的网页,但这并不意味着,可以直接在Eclipse下直接就可以轻松连接虚拟机或者说是远程服务器Linux下的Hadoop0.20.2,原创 2016-01-26 16:39:10 · 2780 阅读 · 0 评论 -
【Mapreduce】以逗号为分隔符的WordCount词频统计
对原有的WordCount程序进行小修小改。将原本以空格、回车识别单词的WordCount,改成以逗号、回车识别单词的WordCount。以说明Map/Redure到底在做一件什么事。代码修改之后如下:import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Con原创 2016-01-27 17:11:01 · 2356 阅读 · 0 评论 -
【Mapreduce】设置Mapreduce输出键值对的分隔符
一般情况下Mapreduce输出的键值对是以制表符\t为分隔符的,如下图所示:但有时候我们像将其设置为其它的分隔符输出,比如",",如下图所示:此时可以在主函数中添加如下的两行代码:conf.set("mapred.textoutputformat.ignoreseparator","true");conf.set("mapred.textoutputformat.s原创 2016-01-27 20:09:22 · 7566 阅读 · 0 评论 -
【Mapreduce】去除重复的行
基于《【Mapreduce】以逗号为分隔符的WordCount词频统计》(点击打开链接)中Mapreduce的处理过程,由于Mapreduce会在Map~reduce中,将重复的Key合并在一起,所以Mapreduce很容易就去除重复的行。Map无须做任何处理,设置Map中写入context的东西为不作任何处理的行,也就是Map中最初处理的value即可,而Reduce同样无须做任何处理,原创 2016-01-27 20:30:43 · 7791 阅读 · 2 评论 -
【Mapreduce】排序与降序
Mapreduce在Map与Reduce之间的处理,会对Key进行升序排序,如果这个Key是Text类型则是按Key的首字母进行升序排序的,如果Key是IntWritable类型,则按大小进行升序排序,利用这点,可以对数据进行排序。比如如下的数据:要排成如下的形式:在Map过程将这些数据摆进Context这个数据字典的时候,除了需要注意类型的匹配以外,还要注意Mapre原创 2016-01-28 16:27:57 · 13083 阅读 · 4 评论 -
【Mapreduce】从代码上解决Output directory already exists错误,避免每次调试都要手动删除输出文件夹
Mapreduce调试很蛋疼的,它不会覆盖上一次输出的结果,如果发现输出文件夹已经存在,比如我的调试输出文件夹是hdfs://192.168.230.129:9000/output,它会直接给你报如下错误:Exception in thread "main" org.apache.hadoop.mapred.FileAlreadyExistsException: Output director原创 2016-01-28 17:02:13 · 32958 阅读 · 5 评论 -
【Mapreduce】利用单表关联在父子关系中求解爷孙关系
首先是有如下数据,设定左边是右边的儿子,右边是左边的父母Tom LucyTom JackJone LucyJone JackLucy MaryLucy BenJack AliceJack JesseTerry AliceTerry JessePhilip TerryPhilip AlmaMark TerryMark Alma要求输出如下所示的爷孙关系,左边是右边的孙子原创 2016-02-02 11:31:14 · 10845 阅读 · 2 评论 -
【Mapreduce】利用job嵌套,多重Mapreduce,求解二度人脉
与《【Mapreduce】利用单表关联在父子关系中求解爷孙关系》(点击打开链接)一样的键值对。Tom LucyTom JackJone LucyJone JackLucy MaryLucy BenJack AliceJack JesseTerry AliceTerry JessePhilip TerryPhilip AlmaMark TerryMark Alma只原创 2016-02-03 18:07:10 · 5057 阅读 · 3 评论