![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop入门
文章平均质量分 80
luyee2010
这个作者很懒,什么都没留下…
展开
-
hadoop实例之HELLOWORLD
新建一个Map/Reduce工程文件:HelloWorld.javaimport java.io.OutputStream;import org.apache.hadoop.conf.*;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.*;public class HelloW原创 2012-12-05 02:03:02 · 2979 阅读 · 1 评论 -
Windows下Cygwin+Eclipse搭建Hadoop开发环境
百度文库:http://wenku.baidu.com/view/45409fc289eb172ded63b775.html转载 2013-02-24 18:04:29 · 1048 阅读 · 0 评论 -
Hadoop编程之MapReduce操作Mysql数据库
1,首先建立mysql的数据库,表:如下图下面是MapReduce编程了,需要导入mysql数据库驱动jar包;首先需要自定义Recoder,这里是CourceRecordpublic class CourceRecord implements Writable, DBWritable { int id; String name; int count;原创 2013-02-26 00:59:37 · 7086 阅读 · 0 评论 -
MapReduce编程之通过MapReduce读取数据,往Hbase中写数据
1,首先是map类:package com.hbase.maptohbase;import java.io.IOException;import org.apache.hadoop.mapreduce.Mapper;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;原创 2013-03-10 03:32:42 · 9029 阅读 · 0 评论 -
MapReduce编程之倒排索引的实现
倒排索引:由于不是根据文档来确定文档所包含的内容,而是进行相反的操作,因而称为倒排索引--------------------------------map输出:key:单词+文档URI,value:词频-------------------------------combiner输入:key:单词+文档URI,value:词频输出:key:单词原创 2013-04-06 23:16:59 · 7754 阅读 · 0 评论 -
Hadoop中碰到的一些错误的解决方法
Hadoop 0.20.2安装启动后 jps找不到NameNode 解决方案 单机伪分布式cat hadoop-hadoop-namenode-ubuntu.log:2013-01-19 00:34:55,812 ERROR org.apache.hadoop.hdfs.server.namenode.FSNamesystem: FSNamesystem initializati原创 2013-01-19 01:33:51 · 19149 阅读 · 3 评论 -
Hadoop中DataNode与NameNode之间的心跳机制
DataNode: 用于存储HDFS的数据,public class DataNode extends Configured implements InterDatanodeProtocol, ClientDatanodeProtocol, FSConstants, Runnable {。。。}1,实现了InterDatanodeProtocol, ClientDatano原创 2013-03-17 00:21:12 · 4915 阅读 · 0 评论 -
hadoop源码TaskAttemptID TaskTrackerAction JobTracker,FileOutputCommitter相关
1,TaskAttemptID代表task attempt,一个task attempt就是一个map/reduce task 的一个实例taskid,而每个TaskAttemptID由两部分组成:TaskID+task序列号eg:attempt_200707121733_0003_m_000005_0代表2007年07月12日17点33分启动的第0003号作业(job)的第0原创 2013-04-15 01:51:20 · 2289 阅读 · 0 评论 -
hadoop源码之JobQueueTaskScheduler
class JobQueueTaskScheduler extends TaskScheduler ---------FIFO1,start()方法public synchronized void start() throws IOException { super.start(); taskTrackerManager.addJobInProgressListener原创 2013-04-15 13:16:18 · 1427 阅读 · 0 评论 -
cygwin openssh svn sed
原创 2013-05-15 20:35:27 · 797 阅读 · 0 评论 -
hadoop错误日志
现象:3个节点,启动之后namenode报错,且存活节点( Live Nodes )只显示1个2013-05-14 20:01:09,839 INFO org.apache.hadoop.ipc.Server: IPC Server handler 9 on 9000: starting2013-05-14 20:01:13,659 ERROR org.apache.hadoop.secu原创 2013-05-14 20:08:14 · 2259 阅读 · 0 评论 -
hadoop ssh无密码登陆
VM DHCP蛋疼了,这次整个static...scp原创 2013-07-09 19:48:36 · 1116 阅读 · 0 评论 -
hadoop0 release0.20.0编译出错
ant jar 成功ant package (eclipse-files)失败:build.xml:908: 'java5.home' is not defined. Forrest requires Java 5解决方案之一是:注释掉904与908行<!-- to Ant on the command-line." />--><!-- to Ant原创 2013-10-15 14:08:54 · 1332 阅读 · 0 评论 -
facebook presto安装与配置 CDH4.4
prestohttp://www.dw4e.com/?p=141http://blog.csdn.net/u012417026/article/details/14516631confhadoop@yard02:~/bigdata/presto-server-0.52/$ tar zxvf presto-server-0.52.tar.gzhadoop@yard02:~/bi原创 2013-11-20 20:06:48 · 7277 阅读 · 2 评论 -
Hadoop2.0 YARN cloudra4.4.0 WordCount实例
其他都没啥 这个 jar都在这里了。import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritabl原创 2013-11-14 20:12:12 · 3542 阅读 · 2 评论 -
Hadoop2.0 YARN cloudra4.4.0安装配置
1,123hadoop@hadoop-virtual-machine:~$ cat /etc/hostname yard02hadoop@hadoop-virtual-machine:~$2,123456789101112131415hadoop@hadoop-virt原创 2013-11-14 20:04:00 · 2590 阅读 · 0 评论 -
Maven编译HADOOP的common项目报错 。。。exec (compile-proto)。。。
[INFO] Apache Hadoop Annotations ......................... SUCCESS [4.657s][INFO] Apache Hadoop Auth ................................ SUCCESS [1.359s][INFO] Apache Hadoop Auth Examples ...........原创 2013-01-19 05:37:16 · 5724 阅读 · 0 评论 -
hadoop eclipse 配置
重装系统后有折腾了好久,才搞定。。感觉还是不靠谱。。先记录下hadoop 伪分布式配置:1,hadoop版本hadoop@ubuntu:~/collector_3h/hadoop-0.20.2/bin$ ./hadoop versionHadoop 0.20.2Subversion https://svn.apache.org/repos/asf/hadoop/common原创 2013-01-19 02:33:59 · 1018 阅读 · 0 评论 -
Hadoop示例程序之单词统计MapReduce
在eclipse下新建一个map/reduce Project1,新建文件MyMap.javaimport java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io原创 2012-12-06 02:13:10 · 2976 阅读 · 0 评论 -
新旧版hadoop的一些差别
Hadoop最新版本的MapReduce Release 0.20.0的API包括了一个全新的Mapreduce JAVA API,有时候也称为上下文对象。新的API类型上不兼容以前的API,所以,以前的应用程序需要重写才能使新的API发挥其作用 。新的API和旧的API之间有下面几个明显的区别。新的API倾向于使用抽象类,而不是接口,因为这更容易扩展。例如,你可以添加一个方法转载 2012-12-24 01:31:47 · 1162 阅读 · 0 评论 -
hadoop的FileSystem 文件系统实现上传下载文件
实现文件的上传和下载:import java.io.BufferedInputStream;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.IOException;import java.io.原创 2012-12-24 00:02:04 · 14540 阅读 · 0 评论 -
MapReduce 的理解
1分钟理解map reduce,其实它就在我们身边:http://heipark.iteye.com/blog/845267,就是:查找与汇总呗linux平台下有个ls指令,大家都很熟悉:① ls | grep 2008 查询文件名包含2008的文件(这其实就是一个map,找到需要的数据)② ls | grep 2008 | wc -l 计算上述指令查询文件个数(这转载 2012-12-27 00:07:31 · 941 阅读 · 0 评论 -
hadoop自带的存取小文件存取解决方案
现实场景;在系统中,存在大量的小文件存取,比如图片文件,一般在几M以内, 1),但是HDFS默认block大小是64M,如果直接存取在Hadoop中,将极大的消耗namenode的资源。直接放在hadoop文件系统中,大多只是做归档分析用,所以,我们就想能不能定期归档。 2),放在HBase中,由于Hbase的value最大长度是64KB,而很多小文件又大过这个级别。原创 2013-01-03 19:38:24 · 6583 阅读 · 1 评论 -
MapReduce源码 分析总结
转载自:http://blog.csdn.net/heyutao007/article/details/5725379MapReduce源码分析总结分类: Hadoop 2010-07-10 14:467521人阅读 评论(7)收藏 举报 目录(?)[+]Javen-Studio 咖啡小屋httpwwwcppblogcomjavenstudioartic转载 2013-01-05 00:46:10 · 1096 阅读 · 0 评论 -
自定义hadoop map/reduce输入文件切割InputFormat
自定义hadoop map/reduce输入文件切割InputFormat 2012-12-05 19:52:29| 分类:hadoop | 标签:自定义 hadoop map/reduce inputformat |字号大中小 订阅 hadoop会对原始输入文件进行文件切割,然后把每个split传入mapper程序中进行处理,FileInpu转载 2013-01-05 18:10:24 · 1663 阅读 · 0 评论 -
eclipse编译hadoop源码
eclipse编译hadoop源码由于开发mapreduce的时候,有时需要看源码,再次down下来,编译了下,仅作为学习记录首先需要安装ant,svn(我用的是eclipse的插件); svn地址:http://svn.apache.org/repos/asf/hadoop/common/tags/release-0.20.2/ check后,直接ant编译就ok了,原创 2013-01-05 18:05:30 · 2734 阅读 · 0 评论 -
mapreduce的文件拆分,FileInputFormat
在map之前会对要处理的文件进行拆分,按照定义的格式进行都写操作。主要是在InputFormat中,InputFormat是一个抽象类,主要有两个抽象方法:1, public abstract List getSplits(JobContext context) throws IOException, InterruptedException;确认输入的且分原则2, pub原创 2013-01-05 23:44:10 · 8126 阅读 · 0 评论 -
hadoop 的HDFS文件系统
一,NameNode 元数据节点:管理文件系统 secondary namenode从元数据节点:元数据节点的别用节点二,DataNode 数据节点:存储数据的地方1)客户端向其请求读取或写入文件,元数据节点发起2)周期性的想元数据节点回报当前存储的数据快信息三,Block数据块:最基本的存储单位,默认64m,当一个文件大小小于一个数据块的大小时,并原创 2012-12-11 01:33:21 · 1463 阅读 · 0 评论 -
hadoop的源码分析之RPC(Remote Procedure Call Protocol)
理解这个RPC是不是的先去理解哈动态代理 好多invoke,还有Socket网络编程先来张eclipse下IPC源码图: 先来看看RPC.java,既然是动态代理,自然会想到Invoke()方法了,先来看看RPC中的Invoker中的invoke()方法private static class Invoker implements InvocationHandler原创 2013-01-12 16:49:19 · 1166 阅读 · 0 评论 -
Maven ERROR hadoop源码mvn工程导入后
hadoop源码mvn工程导入1,Project configuration is not up-to-date with pom.xml. Run Maven-Dependenciesroject>Update Project or use Quick Fix.终于搞定了,项目右键——>【Maven】——>【Update Project ....】,打开一个(Update Maven P原创 2013-01-13 19:20:58 · 1666 阅读 · 0 评论 -
eclipse maven 编译hadoop源码
需要安装maven3才可以,1,svn checkout http://svn.apache.org/repos/asf/hadoop/common/trunk/ ./2,mvn install -DskipTests3,mvn eclipse:eclipse -DdownloadSources=true -DdownloadJavadocs=true原创 2013-01-13 18:20:12 · 5704 阅读 · 0 评论 -
eclise中启动Hbase的Hmaster,玩玩shell
首先master:参数:运行 hbase shellhbase shell参数运行起来后hbase的shell跑几个命令试试发现可以了:create 't_person','no','name'create 't_person','no','name'0 row(s) in 2.5020 secondsHbase::Ta原创 2014-03-30 02:47:07 · 1680 阅读 · 0 评论