hadoop学习
文章平均质量分 73
dandingyy
这个作者很懒,什么都没留下…
展开
-
Hadoop的Streaming学习
<!--@page {margin:2cm}p {margin-bottom:0.21cm}-->Haoop支持用其他语言来编程,需要用到名为Streaming的通用API。Streaming主要用于编写简单,短小的MapReduce程序,可以通过脚本语言编程,开发更快捷,并充分利用非Java库。HadoopStreaming使用Unix中的流与程序交互原创 2012-03-28 21:12:40 · 569 阅读 · 0 评论 -
Hadoop二次排序
文章转自:http://blog.csdn.net/heyutao007/article/details/5890103趁这个时候,顺便把hadoop的用于比较的Writable, WritableComparable, Comprator等搞清楚。。1.二次排序概念:首先按照第一字段排序,然后再对第一字段相同的行按照第二字段排序,注意不能破坏第一次排序的结果 。如转载 2012-04-16 17:51:15 · 1092 阅读 · 0 评论 -
Hadoop DistributedCache
1、DistributedCache In Hadoop此篇文章主要是前一篇的后续,主要讲Hadoop的分布式缓存机制的原理与运用。分布式缓存在MapReduce中称之为DistributedCache,它可以方便map task之间或者reduce task之间共享一些信息,同时也可以将第三方包添加到其classpath路径中去。Hadoop会将缓存数据分发到集群的所有准备启动的节点上,转载 2012-05-15 16:32:31 · 4173 阅读 · 1 评论 -
使用java api操作HDFS文件
全部程序如下:import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.原创 2012-04-06 23:12:13 · 12622 阅读 · 0 评论 -
hadoop遇到的问题
装好hadoop,但是一直出现问题,总结如下:排错到现在,最大的感觉是,也许你的错误表象跟网上说的一样,但是解决方法会大有不同,只能说这种错误是同一问题(如namenode出错)导致,但是究竟是什么行为导致这个问题,每个人也许都不相同,所以重点是找到自己的操作时的错误所在.1.Too many fetch-failures错误问题介绍:http://blog.csdn.net/原创 2012-04-20 02:02:07 · 1526 阅读 · 0 评论 -
hadoop上的pageRank算法
简单的pageRank实现参考:http://wlh0706-163-com.iteye.com/blog/1397694较为复杂的PR值计算以及在hadoop上的实现:http://deathspeeder.is-programmer.com/posts/31349.htmlpageRank算法的基本思想是:网页的热门程度依赖指向它的网页的热门程度。也许google当初的Page转载 2012-05-05 13:14:46 · 1603 阅读 · 0 评论 -
hadoop程序运行
hadoop命令的使用:Usage: hadoop [--config confdir] COMMAND 这里COMMAND为下列其中一个:namenode -format 格式化DFS文件系统 secondarynamenode 运行DFS的第二个namenode namenode 运行DFS的name原创 2012-04-06 10:53:58 · 1564 阅读 · 0 评论 -
eclipse中 unable to load native-hadoop library
解决参考:http://blog.csdn.net/hongweigg/article/details/7203749我的过程是:1。在run configuration中 Arguments/VM arguments加上如下语句:2.如果不行可以在properities/java build path中添加:library/add external folder, 选转载 2012-04-15 22:31:04 · 2468 阅读 · 0 评论 -
hadoop中联结不同来源数据
有时可能需要对来自不同源的数据进行综合分析:如下例子:有Customers文件,每个记录3个域:Custom ID, Name, Phone Number Customers Orders 1,Stephanie Leung,555-555原创 2012-03-29 23:46:52 · 1105 阅读 · 1 评论 -
hadoop 文件合并
众所周知,Hadoop对处理单个大文件比处理多个小文件更有效率,另外单个文件也非常占用HDFS的存储空间。所以往往要将其合并起来。1,getmergehadoop有一个命令行工具getmerge,用于将一组HDFS上的文件复制到本地计算机以前进行合并参考:http://hadoop.apache.org/common/docs/r0.19.2/cn/hdfs_shell.html原创 2012-04-23 17:07:03 · 12211 阅读 · 0 评论 -
MapReduce中文件的压缩和解压
1.单个文件的压缩或解压import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;import java.io.OutputStream;import org.apache.hadoop.conf.Confi原创 2012-04-23 21:27:49 · 3319 阅读 · 0 评论 -
Hadoop0.20更新笔记
本节向大家介绍一下Hadoop0.20更新的内容,在学习Hadoop的过程中你可能会遇到这方面的问题,在这里和大家分享一下,相信通过本节的介绍大家对Hadoop0.20更新有一定的认识。下面是详细介绍。Hadoop0.20更新笔记最近学习hadoop0.20.1,网上找到一篇文章《What’sNewinHadoopCore0.20》,非完整的给翻译了一下,为以后检索方便,发上来保存一份。如转载 2012-03-30 21:20:27 · 470 阅读 · 0 评论 -
eclipse安装hadoop插件及配置
第一次使用hadoop,另外eclipse也不太熟悉,现在把自己在安装过程中得琐碎问题记录下来。eclipse版本:eclipse-jee-indigo-SR2-linux-gtk.tar.gzhadoop版本:hadoop-0.20.203.0本文前提是,你已经正确安装了hadoop-0.20.203.0,hadoop伪分布模式的安装过程网上有很多。eclipse下载解压后,直接原创 2012-03-15 17:46:39 · 3669 阅读 · 0 评论 -
hadoop的Streaming学习(续)
3.用Streaming处理键值对默认情况下,Streaming使用\t分离记录中得键和值,当没有\t时,整个记录被视为键,值为空白文本。不同于AttributeMax.py为每个键寻找最大值,这次我们试着为每个国家找到专利声明数的平均值。(Hadoop包含得名为Aggregate包,可以为每个键寻找最大值) (1)Streaming中得mapper通过STDIN读取一个 分片,并原创 2012-03-28 23:12:11 · 833 阅读 · 0 评论 -
Hadoop 全局变量与数据传递
首先明确: 1.Hadoop不支持全局变量,也不建议使用全局变量。 我的理解是,这是因为hadoop具有map类和reducer类,并且不同的task一般执行的是不同的map或reduce。所以全局变量是无法传递的。(但是一般情况下,我们也许会需要一个对于所有map和reduce都能访问的全局变量),暂时我知道的解决方法如下:2.如果Mapper类和Reducer类都是主类的内转载 2012-05-25 19:53:50 · 9080 阅读 · 0 评论