Hadoop
bruce_wang_janet
人生有三宝:终身运动,终身学习,终身反醒.吸收新知,提高效率,懂得相处,成就自己,也成就他人,创造最高价值.
展开
-
hadoop-扫盲篇
一、Hadoop是什么? 答:是google的核心算法MapReduce的一个开源实现。用于海量数据的并行处理。 hadoop的核心主要包含:HDFS和MapReduce HDFS是分布式文件系统,用于分布式存储海量数据。 MapReduce是分布式数据处理模型,本质是并行处理。 二、多少数据算海量数据? 答:个人认为,TB(1转载 2012-02-08 22:19:47 · 697 阅读 · 0 评论 -
hadoop ubuntu 单机版部署记
下面是1.1.0 release版本的singlealone安装情况 1. 安装 1.1 官方网站http://hadoop.apache.org,下载hadoop-1.10.tar.gz 1.2 解压缩: tar zxvf hadoop-1.10.tar.gz /home/hadoop 1.4修订 /home/hadoop/hadoop-1.1.0/conf/ha原创 2012-02-08 00:12:31 · 741 阅读 · 0 评论 -
hadoop 自定义文件记录划分
1. 整个文件一个记录 系统默认的LineRecordReader是按照每行的偏移量做为map输出时的key值,每行的内容作为map的value值,默认的分隔符是回车和换行。 现在要更改map对应的输入的值,key对应的文件的路径(或者是文件名),value对应的是文件的内容(content)。 那么我们需要重写InputFormat和RecordReader,因为RecordReade转载 2012-02-18 21:25:16 · 891 阅读 · 0 评论 -
解决安全模式问题 “hadoop Cannot create directory Name node is in safe mode.”
1. 安全模式理解 2. 离开安全模式方法 bin/hadoop dfsadmin -safemode leave 3. 若不处理安全模式的话,web服务无法启动,dfsadmin report结果异常原创 2012-02-12 01:08:47 · 6667 阅读 · 0 评论 -
what hadoop good at
说白点就是适合真的非常大的数据量,并且数据本身是稳定的,查询的结果不要求太快。 数据驱动编程模型是将数据喂给不同的处理单元(带有相同或不同的执行逻辑). 运行是被数据的到达触发。因为处理只能访问分给它的数据, 因为数据共享天然被禁止了,就因为这样,所以没有必须进行协调数据的访问了,也就没有死锁等问题。 这不意味着一点也不需要数据访问协调,我们认为协调已经完成:定义处理单元是转载 2012-02-13 20:54:10 · 696 阅读 · 0 评论 -
hadoop 文件划分,map执行浅析
在执行一个Job的时候,Hadoop会将输入数据划分成N个Split,然后启动相应的N个Map程序来分别处理它们。 数据如何划分?Split如何调度(如何决定处理Split的Map程序应该运行在哪台TaskTracker机器上)?划分后的数据又如何读取?这就是本文所要讨论的问题。 先从一张经典的MapReduce工作流程图出发: 1、运行mapred程序; 2、本次运行将生成一转载 2012-02-13 20:33:33 · 4961 阅读 · 2 评论 -
HDFS java api接口测试demo
1. 创建mapreduce工程,设置hadoop home 2. 创建HDFSUtil 类 package Bruce.Hadoop.HDFSManger; import java.util.Iterator; import java.util.Map.Entry; import org.apache.hadoop.conf.Configuration; import org.原创 2012-02-12 01:19:23 · 3385 阅读 · 0 评论 -
解决namenode启动 **dfs/name is in an inconsistent state的问题
1. 主要是没有设置 namenode和datanode 的缺省路径造成的。 如果将Hadoop配置成伪分布模式,则Hadoop会将各种信息存入\tmp目录中,所以当系统重启之后,这些信息会丢失,使得用户不得不重新执行hadoop namenode -format命令。为了避免这种情况,可以在hdfs-site.xml文件中添加一个属性,属性名为dfs.name.dir,值为你想存的目录,只要不原创 2012-02-12 01:00:30 · 2107 阅读 · 0 评论 -
hadoop 的web接口是jetty
1.Jetty 是一个用 Java 实现、开源、基于标准的,并且具有丰富功能的 Http 服务器和 Web 容器,可以免费的用于商业行为。Jetty 这个项目成立于 1995 年,现在已经有非常多的成功产品基于 Jetty,比如 Apache Geromino, JBoss, IBM Tivoli, Cisco SESM 等。Jetty 可以用来作为一个传统的 Web 服务器,也可以作为一个动态的原创 2012-02-11 23:40:34 · 2319 阅读 · 0 评论 -
Cassandra 入门
https://www.ibm.com/developerworks/cn/opensource/os-cn-cassandra/转载 2012-02-11 23:42:43 · 511 阅读 · 0 评论 -
hadoop的安全模式
1.概念 During start up Namenode loads the filesystem state from fsimage and edits log file. It then waits for datanodes to report their blocks so that it does not prematurely start replicating th原创 2012-02-21 20:33:59 · 1548 阅读 · 0 评论 -
hadoop动态增加 datanode和tasktracker的方法
有的时候, datanode或者tasktracker crash,或者需要向集群中增加新的机器时又不能重启集群。下面方法也许对你有用。 1.把新机器的增加到conf/slaves文件中(datanode或者tasktracker crash则可跳过) 2.在新机器上进入hadoop安装目录 $bin/hadoop-daemon.sh start datanode $bi转载 2012-02-21 20:14:47 · 847 阅读 · 0 评论 -
hadoop 调优1
Hadoop调优 mapred.tasktracker.map.tasks.maximum 官方解释:The maximum number of map tasks that will be run simultaneously by a task tracker. 我的理解:一个tasktracker最多可以同时运行的map任务数量 默认值:2 优化值:map转载 2012-02-21 20:11:29 · 3268 阅读 · 0 评论 -
hadoop 0.20.2 datanode注册有延迟
启动后,立即查询发现 datanode个数为0,等几分钟后,个数就正确了。why?原创 2012-02-10 23:43:54 · 578 阅读 · 0 评论 -
Qlive和Hbase选择
待整理原创 2012-02-08 23:29:10 · 498 阅读 · 0 评论 -
hadoop 拾壳
1. inputformat 中获取的filerecord实现时,注意它的记录fen原创 2014-05-18 20:38:23 · 584 阅读 · 0 评论