hadoop
文章平均质量分 70
jingling_zy
这个作者很懒,什么都没留下…
展开
-
随笔
昨天很有幸参加了淘宝的技术沙龙,在交流会上,认识了很多技术牛人,所见所闻都让人热血沸腾……首先听到的是AdMaster公司的@爱的马斯特的有关流式计算的分享,之前对流式计算也稍稍了解了一些,但是了解不多,在这里我了解到他们使用storm实现了日志分析、ETL的功能,用Redis来做多个数据集的关联计算、join计算,实现了cookie,使用hbase做存储,离线分析使用MongoDB(这个主要原创 2012-02-26 23:17:18 · 1252 阅读 · 0 评论 -
hadoop命令distcp注意事项
地址:http://blog.csdn.net/azhao_dn/article/details/7054286#hadoop distcp命令用于在两个不同的集群间拷贝数据,它的优点在于将数据拷贝操作作为mapred程序来执行,这样就大大提高了拷贝的速度,使用distcp命令时必须注意以下事项: 1)数据源集群 的所有节点必须 知道目标集群所有节点ip和host的转换关系转载 2012-05-10 11:38:44 · 1249 阅读 · 0 评论 -
hadoop 各类key value分隔符参数
原文地址:http://wingmzy.iteye.com/blog/1260570hadoop中的map-reduce是处理这样的键值对,故指定的分割符等参数可以分成三类:map输出时分割符分桶时的分隔符reduce输出时的分割符下面分别叙述:1. map输出时分割符参数:stream.map.output.field.sepa转载 2012-04-15 21:40:33 · 5482 阅读 · 0 评论 -
在多硬盘情况下的Hadoop配置注意项
原文地址:http://blog.csdn.net/dajuezhao/article/details/6797015一、背景1、最近在做hadoop的性能测试,采用了自带的Terasort的方式,但是在运行的过程中发现如果数据量过大,对硬盘I/O需求不小(通过Ganglia监控发现),因此,打算找找看是否有合适的配置来解决这样一类的问题,所以才有了这篇记录的文档。2、在做修改之前转载 2012-04-23 20:04:55 · 1365 阅读 · 0 评论 -
hadoop的内存heap大小的配置参数
1、tasktracker的heapsize的大小设置 mapred.child.java.opts -Xmx200m Java opts for the task tracker child processes. The following symbol, if present, will be interpolated: @taskid@ is replaced原创 2012-04-01 15:41:18 · 17292 阅读 · 0 评论 -
windows搭建cygwin、hadoop以及和eclipse集成
整个过程参考了以下文章:1、http://cw550284.iteye.com/blog/10648442、http://lirenjuan.iteye.com/blog/1280729大家也知道map reduce程序调试是一个很困难的事情,还好有cygwin这个好用的工具,以及eclipse相应的插件,真是帮了我们大忙啦!嗯,下面我总结一下我的安装和配置过程:一、cygwin的原创 2012-03-28 00:17:12 · 3724 阅读 · 0 评论 -
NoSuchMethodException: org.apache.hadoop.io.ArrayWritable.<init>问题解决总结
今天写了一个map reduce程序,在map端输出是ArrayWritable类型的,可是到了reduce里报出了NoSuchMethodException: org.apache.hadoop.io.ArrayWritable.的问题。在网上分别看了两篇文章:http://groups.google.com/group/nosql-databases/browse_thread/threa原创 2012-03-27 17:30:14 · 4124 阅读 · 2 评论 -
基于HDFS的FTP
原文地址:http://blog.sina.com.cn/s/blog_3dbab2840100w2be.html一家公司使用apache的ftpserver开发框架开发了针对hadoop的hdfs文件系统的ftp服务器,当然是开源的.站点:http://www.hadoop.iponweb.net/Home/hdfs-over-ftp安装过程非常简单,本人只是在linux下安装过,w转载 2012-03-27 10:32:04 · 6498 阅读 · 1 评论 -
MapReduce Map数 reduce数设置
JobConf.setNumMapTasks(n)是有意义的,结合block size会具体影响到map任务的个数,详见FileInputFormat.getSplits源码。假设没有设置mapred.min.split.size,缺省为1的情况下,针对每个文件会按照min (totalsize[所有文件总大小]/mapnum[jobconf设置的mapnum], blocksize)为大小来转载 2012-03-05 18:11:32 · 12005 阅读 · 0 评论 -
hadoop集群崩溃恢复记录
转载:http://www.blogjava.net/badqiu/archive/2011/12/14/366178.html一.崩溃原因搭建的是一个hadoop测试集群,所以将数据备份参数设置为dfs.replication=1,这样如果有一台datanode损坏的话,数据就会失去。但不幸的是,刚好就有一台机器由于负载过高,导致数据操坏。进而后面需要重启整个hadoop集群,重转载 2012-02-29 19:35:24 · 2777 阅读 · 0 评论 -
Hadoop集群间distcp方案探讨
转载:http://www.linezing.com/blog/?p=452在日常的工作过程中,我们经常会碰到在不同的Hadoop集群间来回copy数据的需求。这些不同的集群,他们的Hadoop版本可能不同,不同机房的acl也可能不通,给我们的distcp带来了很多困难。这里整理曾经遇到的各种需求,供各位看官参考:1.机房影响这里假设有两个Hadoop集群,a和b,版本一致,但位于转载 2012-05-10 19:03:24 · 2047 阅读 · 0 评论