hadoop
iteye_5062
这个作者很懒,什么都没留下…
展开
-
Hadoop的data.dir配置导致balancer无法平衡各节点
hdfs的data.dir配置如下:[code="java"] dfs.data.dir /diska/data/hadoop/data1,/diska/data/hadoop/data2 [/code]后来在web界面的live nodes中看到,怎么hadoop配置的可用空间比实际的空间要多一倍,所以推测,hadoop不会检测是否相同的盘,只单独计算data.d...原创 2012-07-26 17:25:25 · 203 阅读 · 0 评论 -
NullPointerException SerializationFactory.getSerializer解决
转载请标明出处:http://blackwing.iteye.com/blog/1985226网上其他的解释是,MR的in/out的key、value类型不匹配,或者job的输入输出格式不匹配导致报如下错误:[code="java"]java.lang.NullPointerException at org.apache.hadoop.io.serializer.Serializa...原创 2013-12-04 17:30:21 · 133 阅读 · 0 评论 -
Hadoop生成HFile直接入库HBase心得
转载请标明出处:http://blackwing.iteye.com/blog/1991380hbase自带了ImportTsv类,可以直接把tsv格式(官方教材显示,是\t分割各个字段的文本格式)生成HFile,并且使用另外一个类org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles直接把HFile移动到hbase对应的hdfs...原创 2013-12-18 16:15:08 · 511 阅读 · 0 评论 -
LoadIncrementalHFiles是copy而不是move的疑惑
转载请标明出处:http://blackwing.iteye.com/blog/1991901之前在另一篇文章里实现的自定义job生成HFile并使用LoadIncrementalHFiles 入库HBase :http://blackwing.iteye.com/blog/1991380但发现入库时,非常的慢,而且几次都失败了,明明官方教材说这个操作是move的:[code...原创 2013-12-19 10:57:40 · 619 阅读 · 0 评论 -
分拆TableSplit 让多个mapper同时读取
默认情况下,一个region是一个tableSplit,对应一个mapper进行读取,但单mapper读取速度较慢,因此想着把默认一个table split分拆成多个split,这样hadoop就能通过多个mapper读取。由于HBase不能像hadoop一样通过以下参数调整split大小,而实现多个mapper读取[code="java"]mapred.min.split.size...原创 2013-01-06 18:13:20 · 231 阅读 · 0 评论 -
hadoop的 IncompatibleClassChangeError
开发环境中,使用的是官方版的hadoop 1.0.1版,而集群上的hadoop则是cloudera的hadoop 2.0版,之前兼容性还不错,直到使用了Counter。报错如下:[code="java"]FATAL org.apache.hadoop.mapred.Child: Error running child : java.lang.IncompatibleClassChang...原创 2013-02-06 17:26:37 · 88 阅读 · 0 评论 -
shuffle & sort解释
转载请标明出处:http://blackwing.iteye.com/blog/1848401MR任务,充分利用了缓存进行读写。1)map端每个map任务,都会先把数据写到一个环形缓存中,该缓存默认大小是100MB,由io.sort.mb(默认值是100MB)和io.sort.spill.percent(默认值是0.8)共同决定。在默认情况下,当缓存达到80MB时,后台线程就开...原创 2013-04-16 17:31:09 · 190 阅读 · 0 评论 -
解决Exception from container-launch: ExitCodeException exitCode=1的另类错误
转载请标明出处:http://blackwing.iteye.com/blog/2107107环境为hadoop2.2,在linux下运行自己的job,报如下错误:[code="java"]Exception from container-launch: ExitCodeException exitCode=1: ExitCodeException exitCode=1: ...原创 2014-08-21 18:18:22 · 3851 阅读 · 0 评论 -
解决直接读HFile时因表数据写入而导致文件目录变化问题
转载请标明出处:http://blackwing.iteye.com/admin/blogs/2188077数据量大的情况下,通过直接读取HFile来获得hbase表数据性能比通过HTable读取有优势,但当读取HFile时,table同时有数据写入,那么可能因为split、compact等原因导致某些HFile不存在,导致任务失败。如果通过hdfs的snapshot快照功能,对某...原创 2015-03-02 18:22:15 · 362 阅读 · 0 评论 -
Hadoop的Text类getBytes字节数据put到HBase后有多余字符串问题
转载请标明出处:http://blackwing.iteye.com/blog/1978501org.apache.hadoop.io.Text里面的getBytes方法有个小坑。先看现场:[code="java"]String s = "91223224-20131120-96413376-150"; Text t = new Text(); t.set(s)...原创 2013-11-21 15:53:25 · 188 阅读 · 0 评论 -
hadoop的java.opts设置有误导致job setup失败
由于各台机器配置不同,想单独设置每个节点的mapred.child.java.opts参数,开始设置为[code="java"]mapred.child.java.opts-Xms512m -Xmx512m -XX:+UseConcMarkSweepGC -XX:+UseCMSCompactAtFullCollection -XX:+CMSClassUnloadingEnabled -XX...原创 2012-10-17 11:14:10 · 114 阅读 · 0 评论 -
Windows下Hadoop安装
在windows下安装hadoop,需要cygwin模拟linux环境,具体安装可以参考其他文章。国外有篇很详细介绍windows下安装hadoop的各个步骤,可惜其中一步没有说明。文章地址:[url]http://ebiquity.umbc.edu/Tutorials/Hadoop/00%20-%20Intro.html[/url]主要的一步是把windows下的JAVA_HOM...原创 2012-04-18 12:47:01 · 70 阅读 · 0 评论 -
Hadoop使用lzo压缩输出
Hadoop处理大量的数据,如果期间的输出数据、中间数据能压缩存储,对系统的I/O性能会有提升。参考了网上不少资料,发现综合考虑压缩、解压速度、是否支持split,目前lzo是最好的选择。lzo最初在google code上托管,但后来转移到github了,所以以github为准。地址为:[code="java"]https://github.com/kevinweil/hadoop-...原创 2012-08-02 17:48:11 · 348 阅读 · 0 评论 -
VM下Hadoop集群配置
hadoop集群的教程网上很多,看起来不难,但自己动手时,却总是遇到这样那样的问题,今天终于成功运行了3台集群,稍微有点紧张,先记录下来。期间主要参考这位兄弟的文章:http://blog.csdn.net/hguisu/article/details/72373951. 安装JDK、hadoop在/etc/profile中,添加hadoop的bin和主目录。2. ...原创 2012-04-27 17:10:35 · 114 阅读 · 0 评论 -
Windows下访问VM中HBase
资源所限,只能先在本机上模拟hadoop集群。(见文章:[url]http://blackwing.iteye.com/admin/blogs/1502476[/url])开动之前,需要启动hadoop,并且创建好一个hbase目录:[code="java"]hadoop fs -mkdir hbase[/code]这样就能在hadoop中开辟一个hbase存放数据的地方。...原创 2012-04-27 17:38:46 · 265 阅读 · 0 评论 -
Hadoop的tasktracker启动失败,重编译native库
hadoop的datanode启动失败,只能启动datanode进程,而tasktracker则未能启动,查看HADOOP HOME下的hs_err_pid*文件,错误如下:[code="java"]# A fatal error has been detected by the Java Runtime Environment:## SIGFPE (0x8) at pc=0x0...原创 2012-05-19 12:34:06 · 127 阅读 · 0 评论 -
导出导入HBase数据库
系统上已经安装来Hadoop,并且hbase通过hadoop存储数据。1.把hbase中某个表第数据导出到hadoop中:[code="java"]>hbase org.apache.hadoop.hbase.mapreduce.Driver export table1 table1[/code]hbase中首先要有table1这个表才能导出成功。导出的表,在hadoop文件系统的...原创 2012-06-01 16:44:20 · 214 阅读 · 0 评论 -
把hadoop的metrics加入ganglia监控
hadoop的metrics加入ganglia其实是很简单的,但网络上都是copy,而且文档新旧不一,居然还折腾了一会,太out了。hadoop版本1.0.3,ganglia版本3.1.2,以下是主要步骤:1. 修改hadoop/conf/hadoop-metrics2.properties文件[code="java"]*.sink.file.class=org.apach...原创 2013-09-04 17:02:49 · 275 阅读 · 0 评论 -
hadoop 1.0.3增加snappy压缩
转载请标明来源:http://blackwing.iteye.com/blog/1940933基础环境是ubuntu 10.04 LTS,网上得知hadoop 1.0.3以后集成了snappy,所以相比安装lzo,简便一点。预备条件:1. 预先配好环境[code="java"]sudo apt-get install autoconfsudo apt-get i...原创 2013-09-11 17:27:49 · 115 阅读 · 0 评论 -
新版hadoop MultipleOutputs多文件输出
转载请标明出处:http://blackwing.iteye.com/blog/2191454网上虽然有不少关于MultipleOutputs实现多文件输出的文章,但发现要不还是使用mapred.lib旧接口,要不就是说明不清楚。Mapper[code="java"]package com.yy.hiido.itemcf.hadoop.mapper;import jav...原创 2015-03-11 14:22:24 · 415 阅读 · 0 评论