Hadoop生态圈(hadoop/hbase/pig/hive/zookeeper)
文章平均质量分 73
nlslzf
这个作者很懒,什么都没留下…
展开
-
Hadoop-- 海量文件的分布式计算处理方案
http://blog.csdn.net/calvinxiu/archive/2007/02/09/1506112.aspxHadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样, MapReduce的run-time系统会解决输入数...2010-03-05 20:49:16 · 65 阅读 · 0 评论 -
如何在不重启整个hadoop集群的情况下,增加新的节点
1.在namenode 的conf/slaves文件中增加新的节点2.在不stop-all.sh的情况下,直接再执行一遍./start-all.sh2011-02-25 10:12:32 · 210 阅读 · 0 评论 -
Hadoop Job Tuning
http://www.searchtb.com/2010/12/hadoop-job-tuning.htmlHadoop平台已经成为了大多数公司的分布式数据处理平台,随着数据规模的越来越大,对集群的压力也越来越大,集群的每个节点负担自然就会加重,而且集群内部的网络带宽有限,数据交换吞吐量也在面临考验,由此引发了人们对大规模数据处理进行优化的思考。本文仅从实践经验出发,针对Hadoop ...原创 2011-02-28 15:53:33 · 138 阅读 · 0 评论 -
Hadoop的安装配置
http://www.iteye.com/topic/3651683台机器:master(10.0.0.200),slave1(10.0.0.201),slave2(10.0.0.202) 系统都为Centos 5 假设将master做为namenonde,将slave1和slave2做为datanode 1.在master:(在slave1和slave2上操作和以下相同) vi /etc/h...原创 2010-11-08 16:01:41 · 134 阅读 · 0 评论 -
Linux单机运行hadoop平台
Hadoop-0.19.2的代码可以到Apache上下载,使用的Linux机器是RHEL 5,Linux上安装的Java版本为1.6.0_16,并且JAVA_HOME=/usr/java/jdk1.6.0_16实践过程1、ssh无密码验证登陆localhost保证Linux系统的ssh服务已经启动,并保证能够通过无密码验证登陆本机Linux系统。如果不能保证,可以按照如下的步骤去做:...原创 2010-11-14 11:21:36 · 586 阅读 · 0 评论 -
Hadoop的mapred JobTracker端源码概览
http://jiwenke.iteye.com/blog/335093上一节看到TaskTracker启动新任务的过程,这里接着看看在JobTracker中是怎样响应和调度的,在hadoop中,我们看到采用的是pull的方式拿到任务。 Java代码 HeartbeatResponse heartbeatResponse = jobClient.heartb...原创 2010-11-14 11:23:34 · 167 阅读 · 0 评论 -
Hadoop的mapred TaskTracker端源码概览
http://jiwenke.iteye.com/blog/334146花了许多功夫把Hadoop的mapreduce实现过了一遍,基本线索理清楚了: 1. 任务的运行时TaskTracker通过heartbeat取得 2. TaskTracker得到hearbeatresponse之后,会根据封装在response里的action来决定行为 3. 如果是launchaction的话,调用Ta...原创 2010-11-14 11:24:46 · 122 阅读 · 0 评论 -
hadoop常用的指令
hadoop job -kill jobid 可以整个的杀掉一个作业,在这个作业没啥用了,或者确认没有价值的情况下使用hadoop job -kill-task attempid 如果一个作业的某个mapper任务出了问题,而整个作业还希望继续运行的情况下,使用这个命令 1) 重启坏掉的DataNode或JobTracker。当Hadoop集群的某单个节点出现问题时,一般不必重启整个...原创 2011-10-09 16:50:06 · 89 阅读 · 0 评论 -
hadoop指定某个文件的blocksize,而不改变整个集群的blocksize
文件上传的时候,使用下面的命令即可hadoop fs -D fs.local.block.size=134217728 -put local_name remote_location参考http://stackoverflow.com/questions/2669800/changing-the-block-size-of-a-dfs-file-in-hadoop经过验证,...原创 2011-03-20 17:20:09 · 334 阅读 · 0 评论 -
Hadoop基准测试
http://www.michael-noll.com/blog/2011/04/09/benchmarking-and-stress-testing-an-hadoop-cluster-with-terasort-testdfsio-nnbench-mrbench/该网页提到,较低的复制因子能够获得较高的IO值,下图是将我们的复制因子改为2之后,跑出来的结果我在测试时发...原创 2011-08-08 10:04:45 · 204 阅读 · 0 评论 -
mount盘异常,导致hadoop作业无法发送
异常信息 2012-10-23 21:10:42,185 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: 127.0.0.1/127.0.0.1:34474. Already tried 5 time(s).2012-10-23 21:10:43,186 INFO org.apache.hadoop.ipc....原创 2012-10-23 16:12:14 · 138 阅读 · 0 评论 -
程序开过多线程,导致hadoop作业无法运行成功
Exception in thread "Thread-20" java.io.IOException: Call to /.....:8020 failed on local exception: java.io.IOException: Couldn't set up IO streams at org.apache.hadoop.ipc.Client.wrapException(Client...原创 2012-10-23 16:14:49 · 347 阅读 · 0 评论 -
HDFS quota 設定
http://fenriswolf.me/2012/04/04/hdfs-quota-%E8%A8%AD%E5%AE%9A/ 在多人共用的狀況下,quota 的設定非常重要。尤其是在 Hadoop 處理大量資料的環境,不小心就容易把所有的空間用完造成別人無法存取Hadoop quota 的設定是針對目錄,而不是針對帳號。所以在管理上最好讓每個帳號只能寫入某一個目錄(例如 /user/fen...原创 2012-08-02 16:22:33 · 131 阅读 · 0 评论 -
hadoop与panasas
在应用的场景中,hadoop当然希望使用全部的本地硬盘,但是对于已经采购了大量的集中存储的客户而言,集中存储是不可能闲置的,hadoop该如何与集中存储联合使用?http://www.panasas.com/blog/hadoop-is-simple-with-panasashttp://performance.panasas.com/hadoop-configuration-guide....原创 2012-12-26 09:53:44 · 81 阅读 · 0 评论 -
hadoop的超时设置
from http://blog.163.com/zhengjiu_520/blog/static/3559830620130510443956/ 最近在测试mysql往HDFS备份的性能问题,发现对mysql执行xtrabackup进行限速之后经常出现HDFS写入不正常的情况。 1. 错误如下: 11/10/12 10:50:44 WARN hdfs.DFSClient:...原创 2013-06-23 11:47:24 · 1108 阅读 · 0 评论 -
Build, Install, Configure and Run Apache Hadoop 2.2.0 in Microsoft Windows OS
http://www.srccodes.com/p/article/38/build-install-configure-run-apache-hadoop-2.2.0-microsoft-windows-os Good news for Hadoop developers who want to use Microsoft Windows OS for their developmen...原创 2013-12-09 11:17:53 · 168 阅读 · 0 评论 -
一网打尽当下NoSQL类型、适用场景及使用公司
一网打尽当下NoSQL类型、适用场景及使用公司http://www.csdn.net/article/2014-12-26/2823328对比传统关系型数据库,NoSQL有着更为复杂的分类——键值、面向文档、列存储以及图数据库。这里就带你一览NoSQL各种类型的适用场景及一些知名公司的方案选择。 在过去几年,关系型数据库一直是数据持久化的唯一选择,数据工作者考虑的也只是在...原创 2014-12-28 20:56:49 · 268 阅读 · 0 评论 -
对hadoop task进行profiling的几种方法整理
对hadoop task进行profiling的几种方法整理http://blog.csdn.net/AE86_FC/archive/2010/10/22/5957793.aspx 在hadoop中,当一个job的调试完成,执行成功后,job的开发者接下来该思考的问题通常就是:如何将job跑的更快,更加高效,更节省资源呢?这个话题其实是一个老生常谈的话题了,很多有经验的工程师,开...原创 2011-02-10 21:57:45 · 141 阅读 · 0 评论 -
如何对hadoop作业的某个task进行debug单步跟踪
http://blog.csdn.net/AE86_FC/archive/2010/10/21/5957715.aspx对于使用hadoop进行日志分析等工作的开发者来说,相信一直都面临着一个非常头 疼的问题。那就是:对hadoop的mapreduce作业,在分布式集群上进行单个task的单步debug跟踪调试无法办到。只能在本地进行调试,然 后提交到集群中运行,但是集群中如果某个task...原创 2011-02-10 21:56:39 · 121 阅读 · 0 评论 -
hadoop 0.20 程式開發 eclipse plugin
http://trac.nchc.org.tw/cloud/wiki/waue/2009/0617hadoop 0.20 程式開發 eclipse plugin + Makefilehadoop 0.20 程式開發eclipse plugin + Makefile零. 前言開發hadoop 需要用到許多的物件導向語法,包括繼承關係、介面類別,而且需要匯入正確的class...原创 2011-01-26 19:36:49 · 70 阅读 · 0 评论 -
中文帮助文档
http://hadoop.apache.org/common/docs/r0.17.2/cn/index.html估计这个东西以后能够用得上,公司整体说啥海量数据处理,现在也没有见着,nnd2010-03-05 20:58:29 · 120 阅读 · 0 评论 -
Hadoop 的文件系统
Hadoop 的文件系统http://blogger.org.cn/blog/more.asp?name=bg1011&id=30853Hadoop 的文件系统,最重要是 FileSystem 类,以及它的两个子类 LocalFileSystem 和 DistributedFileSystem。 这里先分析 FileSystem。抽象类 FileSystem,提高了一系列对文件/目录操...2010-03-05 21:02:33 · 88 阅读 · 0 评论 -
用 Hadoop 进行分布式并行编程
http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop1/index.html2010-03-05 21:20:30 · 70 阅读 · 0 评论 -
json在线格式化
http://jsonformatter.curiousconcept.com/做hadoop监控,传出json格式的数据,呵呵,找到一个不错的在线工具原创 2010-12-21 16:23:06 · 88 阅读 · 0 评论 -
How to Benchmark a Hadoop Cluster
How to Benchmark a Hadoop Clusterhttp://answers.oreilly.com/topic/460-how-to-benchmark-a-hadoop-cluster/Is the cluster set up correctly? The best way to answer this question is empirically: ...原创 2011-01-19 22:15:02 · 98 阅读 · 0 评论 -
hadoop-0.21.0-eclipse-plugin无法在eclipse中运行解决方案
LINUX下将hadoop-0.21自带的hadoop eclipse plugin放到eclipse dropins目录中无法正常运行,使用eclipse -consolelog 发现找不到hadoop的类,解压hadoop-0.21.0-eclipse-plugin.jar发现META-INF下的MANIFEST.MF文件中,Bundle-ClassPath写的有问题,他写的是/lib/had...原创 2011-01-26 09:47:05 · 88 阅读 · 0 评论 -
Hadoop Job Scheduler作业调度器
http://hi.baidu.com/zhengxiang33/blog/item/655c8e039a0b619bd53f7c67.html 作者:hovlj_1130 | 可以任意转载, 但转载时务必以超链接形式标明文章原始出处 和 作者信息 及 版权声明http://hi.baidu.com/hovlj_1130/blog/item/fb84dd1e3558d8f8e0fe0b8e...原创 2011-05-21 11:02:53 · 180 阅读 · 0 评论 -
HBase简介
http://hi.baidu.com/lkf0217/blog/item/3ce51b872ba04a21c75cc376.htmlHbase是一个分布式开源数据库,基于Hadoop分布式文件系统,模仿并提供了基于Google文件系统的Bigtable数据库的所有功能。 其目标是处理非常庞大的表,可以用普通的计算机处理超过10亿行数据,并且有数百万列元素组成的数据表。Hbase可以直接使用本...原创 2010-11-01 09:57:43 · 80 阅读 · 0 评论 -
HBase分布式安装手
http://blog.csdn.net/dajuezhao/archive/2010/07/07/5717541.aspx一、安装准备1、下载HBASE 0.20.5版本:http://www.apache.org/dist/hbase/hbase-0.20.5/2、JDK版本:jdk-6u20-linux-i586.bin3、操作系统:Linux s132 2.6.9-...原创 2010-11-01 09:58:52 · 60 阅读 · 0 评论 -
HBase vs Cassandra: 我们迁移系统的原因
http://wangxu.me/blog/?p=371原文: http://ria101.wordpress.com/2010/02/24/hbase-vs-cassandra-why-we-moved/ 原作者:Dominic Williams 原文发布日期:February 24, 2010 at 7:27 pm 译者:王旭(http://wangxu.me/blog/ , @gna...原创 2010-11-01 10:00:08 · 183 阅读 · 0 评论 -
使用HBase的一个典型例子,涉及了HBase中很多概念
http://hi.baidu.com/xuelianglv/blog/item/8c68bb01633166d0267fb552.html一个使用HBase的例子,如下。import java.io.IOException;import org.apache.hadoop.hbase.client.HTable;import org.apache.hadoop.hbase.clien...原创 2010-11-01 10:00:54 · 108 阅读 · 0 评论 -
HBase中 Region类
http://hi.baidu.com/xuelianglv/blog/item/bdff9a1ecc15201940341725.html一个Region在HBase中用一个HRegionInfo表示。该类定义在文件HRegionInfo.java中。一个Region包括如下几个重要属性:// 代表Region的开始Keybyte [] startKey = HConstants.EMPTY...原创 2010-11-01 10:02:59 · 138 阅读 · 0 评论 -
HBase下的Lease
在BigTable的论文中讲到了Lease的概念。Least就好比你租房子住,签了多长的合约。如果时间长了,你可以续约(renew)。你也可能因为房子不习惯想换个地住,你就和房东说,取消住房(cancel)。当然在Hbase里,你不用交违约金。因为BigTable会同时处理很多个客户端,就好比是一个有多套房子的房东同时把不同房间租给了多个不同的客户。那它关心什么呢?我想他首先关心的是每个客户的合约...原创 2010-11-01 10:03:36 · 160 阅读 · 0 评论 -
HBase下的基本异常类型
http://hi.baidu.com/xuelianglv/blog/item/b5675f27873c2105908f9d0c.htmlHbase定义了一系列的Exception类别。从org\apache\hadoop\hbase下可以看到各个Exception的定义。. TableExistsException 这个异常类型表明table已经存在。.TableNotDisab...原创 2010-11-01 10:04:18 · 74 阅读 · 0 评论 -
Hadoop Hbase适合存储哪类数据?
http://www.cnblogs.com/chenjingjing/archive/2010/01/26/1656869.html最适合使用Hbase存储的数据是非常稀疏的数据(非结构化或者半结构化的数据)。Hbase之所以擅长存储这类数据,是因为Hbase是column-oriented列导向的存储机制,而我们熟知的RDBMS都是row- oriented行导向的存储机制(郁闷的是...原创 2010-11-01 10:06:01 · 139 阅读 · 0 评论 -
HBase存储架构
http://hi.baidu.com/hontlong/blog/item/c397e32a43f9cc23d52af179.htmlHBase存储架构英文原文:http://www.larsgeorge.com/2009/10/hbase-architecture-101-storage.htmlHBase最隐秘的问题之一就是它的数据是如何存储的。虽然大多数用户都不会因为这个...原创 2010-11-01 10:07:12 · 95 阅读 · 0 评论 -
别样解释云计算,太TM天才跨界了
http://mp.weixin.qq.com/s?__biz=MjM5NzA1MTcyMA==&mid=200047232&idx=1&sn=a43eaf0d742b9eda1c58e842b66d89fe&scene=3#rd 技术人员怎么也讲不清楚的云计算,咱们的高级总监曾经就是这样和政府领导普及云计算和智慧城市知识的,却都听懂了: ...原创 2014-02-25 09:41:30 · 355 阅读 · 0 评论