![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 73
lskyne
这个作者很懒,什么都没留下…
展开
-
源码级强力分析hadoop的RPC机制
前言:hadoop RPC(Remote Procedure Call Protocol ,远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。可以参考:http://baike.baidu.com/view/32726.htm)机制分析的博客。分析对象:hadoop版本:hadoop 0.20.203.0必备技术点:1.转载 2013-04-24 10:50:53 · 949 阅读 · 0 评论 -
hadoop fs –stat命令详解
当向HDFS上写文件时,可以通过设置dfs.block.size配置项来设置文件的block size,这导致HDFS上不同文件的block size是不同的。有时候我们需要知道HDFS上某个文件的block size,比如想知道该该文件作为job的输入会创建几个map等。Hadoop FS Shell提供了一个-stat选项可以达到目的。官方文档描述这个选项时遗漏了可选参数。-stat选项的使用原创 2013-05-14 09:44:16 · 9508 阅读 · 0 评论 -
Lucene 里常用类的概念
Lucene是apache组织的一个用java实现全文搜索引擎的开源项目。其功能非常的强大,但api其实很简单的,它最主要就是做两件事:建立索引和进行搜索。1. 建立索引时最重要的几个术语* Document:一个要进行索引的单元,相当于数据库的一行纪录,任何想要被索引的数据,都必须转化为Document对象存放。* Field:Document中的一个字段,相当于数据库中的Col转载 2013-05-28 15:39:24 · 1086 阅读 · 0 评论 -
hadoop集群默认配置和常用配置
转自:http://www.cnblogs.com/ggjucheng/archive/2012/04/17/2454590.html获取默认配置配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoo转载 2013-05-14 20:54:19 · 982 阅读 · 0 评论 -
hadoop添加节点和删除节点
转自:http://www.cnblogs.com/ggjucheng/archive/2012/04/22/2465625.html添加DataNode1.部署hadoop和普通的datanode一样。安装jdk,ssh2.修改host和普通的datanode一样。添加namenode的ip3.修改namenode的配置文件conf/slaves添加新增节转载 2013-05-14 20:52:47 · 1157 阅读 · 0 评论 -
hadoop和hbase节点故障重启
DataNode:hadoop-daemon.sh start datanodeTaskTrackerhadoop daemon.sh start tasktrackerRegionServerhbase-daemon.sh stop regionserver HQuorumPeerhbase-daemon.sh stop zookeeper检原创 2013-05-15 10:04:40 · 3089 阅读 · 1 评论 -
hadoop配置文件说明
1、dfs.hosts 记录即将作为datanode加入集群的机器列表2、mapred.hosts 记录即将作为tasktracker加入集群的机器列表3、dfs.hosts.exclude mapred.hosts.exclude 分别包含待移除的机器列表4、master 记录运行辅助namenode的机器列表5、slave 记录运行datanode和tasktracker的机器转载 2013-05-15 10:28:24 · 1307 阅读 · 0 评论 -
基于hadoop的crc校验谈hadoop的离线设计思想
前言hadoop比较适合做离线处理,这个是众所周知的,而且hdfs为了保证数据的一致性,每次写文件时,针对数据的io.bytes.per.checksum字节,都会创建一个单独的校验和。默认值为512字节,因为crc-32校验是4字节,存储开销小于1%。而客户端读取数据时,默认会验证数据的crc校验和。除此之外,每个数据节点还会在后台线程运行一个数据块检测程序,定期检查存储在数据节点上的所有块转载 2013-05-15 10:34:04 · 2065 阅读 · 0 评论 -
SecondaryNameNode配置和恢复
配置1.概述光从字面上来理解,很容易让一些初学者先入为主的认为:SecondaryNameNode(snn)就是NameNode(nn)的热备进程。其实不是。snn是HDFS架构中的一个组成部分,但是经常由于名字而被人误解它真正的用途,其实它真正的用途,是用来保存namenode中对HDFS metadata的信息的备份,并减少namenode重启的时间。对于hadoo转载 2013-05-15 10:56:11 · 1052 阅读 · 0 评论 -
MapReduce高级编程之自定义DataType
Hadoop是用JAVA语言实现,然而它的基本数据类型却不是标准的JAVA对象,而是对他们的一个封装,序列化 序列化是指将结构化对象转换为字节流,以便于在网络上进行传输或写到磁盘进行永久存储 Hadoop常用的数据类型有: 这一套数据类型虽然能满足大部分的需求,但有些情况下要写出更灵活的程序,还是需要定制自己的Writ转载 2013-05-13 09:24:20 · 1113 阅读 · 0 评论 -
hadoop下kmeans算法实现四
KMapper.javaimport java.io.ByteArrayOutputStream;import java.io.IOException;import java.net.URI;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache原创 2013-01-26 10:08:56 · 6469 阅读 · 9 评论 -
hadoop集群崩溃恢复记录
转载:http://www.blogjava.net/badqiu/archive/2011/12/14/366178.html一.崩溃原因搭建的是一个hadoop测试集群,所以将数据备份参数设置为dfs.replication=1,这样如果有一台datanode损坏的话,数据就会失去。但不幸的是,刚好就有一台机器由于负载过高,导致数据操坏。进而后面需要重启整个hadoop集群,重启后启动转载 2013-05-08 15:21:28 · 2791 阅读 · 0 评论 -
Hadoop回收站trash
转自:http://www.cnblogs.com/ggjucheng/archive/2012/04/18/2454683.htmlHadoop回收站trash,默认是关闭的。 习惯了window的同学,建议最好还是把它提前开开,否则误操作的时候,就欲哭无泪了1.修改conf/core-site.xml,增加property> name>fs.trash.inter转载 2013-05-14 10:22:40 · 7549 阅读 · 0 评论 -
Hadoop&Hbase 备份方案--NFS
需求: 实现namenode元数据的备份,解决namenode单点宕机导致集群不可用的问题。方案描述:当namenode所在服务器宕机的时候,我们可以利用namenode备份的元数据迅速重构新的namenode来投入使用。1. Hadoop本身提供了可利用secondarynamenode的备份数据来恢复namenode的元数据的方案,但因为checkpoint(转载 2013-05-07 16:39:13 · 1355 阅读 · 0 评论 -
hadoop secondarynamenode的作用
1、初学者会见名思义的认为secondarynamenode是namenode的备份其它的,或者认为它们是一样的。实质上,它是namenode的一个快照,会根据configuration中设置的值来决定多少时间周期性的去spap一下namenode,记录namenode中的metadata及其它数据。2、假使namenode损坏或丢失之后,无法启动hadoop这时就要人工去干预恢复到secon转载 2013-05-07 16:16:12 · 9954 阅读 · 0 评论 -
hadoop的dfs.replication和备份数问题
首先 dfs.replication这个参数是个client参数,即node level参数。需要在每台datanode上设置。其实默认为3个副本已经够用了,设置太多也没什么用。一个文件,上传到hdfs上时指定的是几个副本就是几个。以后你修改了副本数,对已经上传了的文件也不会起作用。可以再上传文件的同时指定创建的副本数hadoop dfs -D dfs.replication=1 -p转载 2013-05-08 09:41:31 · 42608 阅读 · 2 评论 -
hadoop主节点(NameNode)备份策略以及恢复方法
一、dits和fsimage 首先要提到两个文件edits和fsimage,下面来说说他们是做什么的。集群中的名称节点(NameNode)会把文件系统的变化以追加保存到日志文件edits中。当名称节点(NameNode)启动时,会从镜像文件 fsimage 中读取HDFS的状态,并且把edits文件中记录的操作应用到fsimage,也就是合并到fsimage中去。合并后更转载 2013-05-07 16:18:07 · 2295 阅读 · 0 评论 -
hdfs搭建2 启动backupNode和SecondaryNamenode
1. 根据上一章配好的集群,现为Myhost1配置backupNode和SecondaryNamenode,由于机器有限,这里就不为Myhost2配置backupNode和SecondaryNamenode,但是方法相同.2. 我们选定Myhost4为SecondaryNamenode,Myhost5为backupNode.配置并启动SecondaryN转载 2013-05-07 16:46:44 · 2572 阅读 · 0 评论 -
hadoop fsck 命令详解
hadoop fsck Usage: DFSck [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]] 检查这个目录中的文件是否完整 -move 破损的文件移至/lost+found目录转载 2013-05-08 15:20:49 · 1249 阅读 · 0 评论 -
全分布式下安装hbase(使用hbase自带的zookeeper)
转自:http://www.dataguru.cn/portal.php?mod=view&aid=2674环境:master 192.168.0.100 slaveA 192.168.0.101 slaveB 192.168.0.102包:hbase-0.90.4-cdh3u2hadoop-0.20.2-cdh3u2gz包下载地址:http://a转载 2013-05-08 15:31:49 · 4788 阅读 · 0 评论 -
mapreduce大规模计算实验结果和性能比较
等待实验结果.....13/07/10 11:18:31 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable13/07/10 11:18:31 WARN mapred.JobClien原创 2013-07-10 11:20:21 · 1349 阅读 · 0 评论 -
MapReduce: 提高MapReduce性能的七点建议
Cloudera提供给客户的服务内容之一就是调整和优化MapReducejob执行性能。MapReduce和HDFS组成一个复杂的分布式系统,并且它们运行着各式各样用户的代码,这样导致没有一个快速有效的规则来实现优化代码性能的目的。在我看来,调整cluster或job的运行更像一个医生对待病人一样,找出关键的“症状”,对于不同的症状有不同的诊断和处理方式。 在医学领域,没有什转载 2013-09-12 15:39:43 · 2389 阅读 · 0 评论 -
centos下SSH无密码访问(非22端口)
转自:http://www.linux-centos.com/2012/01/23/centos下ssh无密码访问(非22端口)以及rsync初步尝试/转载 2014-07-25 00:21:20 · 5845 阅读 · 0 评论 -
Hadoop 新 MapReduce 框架 Yarn 详解
转自:原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 MapReduce 框架图:图 1.Hado转载 2014-09-04 15:19:21 · 2352 阅读 · 0 评论 -
CAP理论和BASE模型
转自:http://blog.itpub.net/58054/viewspace-660826/转载 2014-08-20 16:29:45 · 1263 阅读 · 0 评论 -
hadoop常见问题wikiFAQ
http://wiki.apache.org/hadoop/FAQ3.10. What happens when two clients try to write into the same HDFS file?HDFS supports exclusive writes only. When the first client contacts the name-node to open原创 2014-08-18 14:25:31 · 904 阅读 · 0 评论 -
HDFS的一致性分析
转自:http://coderplay.iteye.com/blog/1067463在分析HDFS的一致性之前, 我们先得解决HDFS客户端行为的几个问题。 1. 为什么HDFS不支持多个writer同时写一个文件,即不支持并发写? 首先谈一谈HDFS产生的历史。HDFS是根据Google的GFS论文所实现的, 初期时它的主要设计目标是为了存储MapReduce所操作的大型数据集。转载 2014-08-18 14:28:38 · 1875 阅读 · 0 评论 -
avro学习入门一
http://avro.apache.org/docs/1.7.7/gettingstartedjava.html#Defining+a+schema转载 2014-09-03 14:42:40 · 1301 阅读 · 0 评论 -
avro学习二
Avro(读音类似于[ævrə])是Hadoop的一个子项目,由Hadoop的创始人Doug Cutting(也是Lucene,Nutch等项目的创始人,膜拜)牵头开发,当前最新版本1.3.3。Avro是一个数据序列化系统,设计用于支持大批量数据交换的应用。它的主要特点有:支持二进制序列化方式,可以便捷,快速地处理大量数据;动态语言友好,Avro提供的机制使动态语言可以方便地处理Avro数据。转载 2014-09-03 14:50:38 · 4204 阅读 · 0 评论 -
hadoop 根据SecondaryNameNode恢复Namenode
问题:最近一直在研究hadoop,发现在hadoop的分布式安装完了之后,网上这部分的资料就很少了,淘宝和百度的一些研究又不公布出来,用了OpenSource又不贡献给社区,鄙视之,现在我在模拟hadoop中的节点故障,以及恢复,在网上查了很多资料,DataNode的处理很简单,hadoop自生有对DataNode的备份机制,但是我想问的是,备份之后我怎么去恢复它,稍微说详细点,关键是Name转载 2013-05-07 16:37:58 · 1325 阅读 · 0 评论 -
Hadoop管理员的十个最佳实践(转)
前言接触Hadoop有两年的时间了,期间遇到很多的问题,既有经典的NameNode和JobTracker内存溢出故障,也有HDFS存储小文件问题,既有任务调度问题,也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷(短板),有些则是使用的不当。本文基于 Cloudera CDH 3u4(同Apache Hadoop 1.0)编写。相关推荐配置为官方推荐值或者笔者经验转载 2013-09-12 10:16:49 · 1186 阅读 · 0 评论 -
hadoop环境的环境配置
sudo gedit /etc/profile#set java environmentexport JAVA_HOME=/home/hadoop/javaexport JRE_HOME=$JAVA_HOME/jreexport CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATHexport PATH=$JAVA_HOME原创 2013-07-10 15:12:37 · 1321 阅读 · 0 评论 -
Hadoop下将大量小文件生成一个sequenceFile文件
1)遇到的问题,因为是在集群上运行,代码中String seqFsUrl = "hdfs://localhost:9000/user/mjiang/target-seq/sdfgz.seq";的localhost错误,于是老是出现连接不上的问题,(Retrying connect to server: localhost/127.0.0.1:8020. Already tried 0 ti转载 2013-06-26 16:51:54 · 4049 阅读 · 0 评论 -
浅析Hadoop文件格式
Hadoop 作为MR 的开源实现,一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势。不过,MPP数据库社区也一直批评Hadoop由于文件格式并非为特定目的而建,因此序列化和反序列化的成本过高[7]。本文介绍Hadoop目前已有的几种文件格式,分析其特点、开销及使用场景。希望加深读者对Hadoop文件格式及其影响性能的因素的理解。Hadoop 中的文件格式1转载 2013-06-26 17:00:27 · 1355 阅读 · 0 评论 -
SequenceFile文件
SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。目前,也有不少人在该文件的基础之上提出了一些HDFS中小文件存储的解决方案,他们的基本思路就是将小文件进行合并成一个大文件,同时对这些小文件的位置信息构建索引。不过,这类解决方案还涉及到Hadoop的另一种文件格式——MapFile文件。SequenceFile文件并不保证转载 2013-06-26 16:53:45 · 1863 阅读 · 0 评论 -
mapreduce读取sequencefile文件中的数据
[java] view plaincopysequencefile中的数据是以key,value对存储的。 [java] view plaincopy通过mapreduce模式,可以读取sequencefile中的数据。 [java] view plaincopy转载 2013-06-26 16:50:51 · 6800 阅读 · 4 评论 -
Hadoop序列化文件SequenceFile
Hadoop序列化文件SequenceFile主要用于解决大量小文件问题,SequenceFile是Hadoop API提供的一种二进制文件支持。这种二进制文件直接将对序列化到文件中,一般对小文件可以使用这种文件合并,即将文件名作为key,文件内容作为value序列化到大文件中。理解点:1、二进制数据格式,在hadoop上进行mr任务时使用,一般是中间过程mr的输入输出数据2、原创 2013-06-27 11:11:48 · 6182 阅读 · 0 评论 -
Hadoop关于处理大量小文件的问题和解决方法
小 文件指的是那些size比HDFS 的block size(默认64M)小的多的文件。如果在HDFS中存储小文件,那么在HDFS中肯定会含有许许多多这样的小文件(不然就不会用hadoop了)。而 HDFS的问题在于无法很有效的处理大量小文件。任何一个文件,目录和block,在HDFS中都会被表示为一个object存储在 namenode的内存中,没一个object占用150 byte转载 2013-06-26 16:58:41 · 12306 阅读 · 1 评论 -
php通过 thrift访问hadoop的hive
转自:http://blog.csdn.net/gs_zhaoyang/article/details/13503527转载 2014-09-03 17:34:39 · 2856 阅读 · 0 评论 -
Hadoop单机伪分布的搭建
上一篇主要写了Linux的初步学习,及相关软件的配置安装,没想到这么快就用到了,接触hadoop快一个月了,大致了解了其中的运行机制,主要包括两方面:1,HDFS进行文件存储,2,MapReduce进行数据分析处理。通过网上的资料查询,终于把hadoop单机版配置好了,于是把配置过程总结一下。 1,安装JDK,我用的是openjdk1.6版本 sudo apt-get instal原创 2012-12-29 13:17:35 · 1730 阅读 · 0 评论