hadoop
文章平均质量分 70
驰驰的老爸
IT民工一枚,长期耕耘于JAVA, JS,LINUX一线,现在努力提高机器学习方面的技能。
展开
-
Hadoop运维那些事
在实际的生产环境运维一个Hadoop集群有一些必须要关注的事情。1、Namenode的高可靠性2、节点配置与管理3、Mapreduce的内存配置4、启用trash首要的是保证数据安全可靠,其次再去考虑存储效率、计算效率、运维效率的优化与提高,当你觉得Hadoop集群的性能太差太差的时候,其实是你对Hadoop的了解太少,Hadoop的效率没有被发挥出来。数据的可转载 2014-01-26 19:30:42 · 962 阅读 · 0 评论 -
kill hadoop job
查看当前运行job列表: hadoop job -list kill job举例,最后一个参数是Job Id hadoop job -kill job_201106031716_0031转载 2014-02-09 20:51:53 · 1213 阅读 · 0 评论 -
hadoop性能调优笔记
Hadoop调优mapred.tasktracker.map.tasks.maximum 官方解释:The maximum number of map tasks that will be run simultaneously by a task tracker. 我的理解:一个tasktracker最多可以同时运行的map任务数量 默认值转载 2014-02-09 20:55:56 · 933 阅读 · 0 评论 -
学习hadoop常去的网站
学习hadoop常去网址;hadoop邮件列表信息查询http://www.search-hadoop.com简介:hadoop邮件列表都是hadoop用户和开发者的提问和讨论的邮件列表,里面大量问题,和解决方案,可以帮助自己解决工作中遇到的大量问题。hadoop in china http://www.hadooper.cn/dct/page/65750原创 2013-06-20 17:59:42 · 3554 阅读 · 1 评论 -
我遇到的hadoop错误和解决方法汇总
http://heipark.iteye.com/blog/786302==================================windows cygwin环境下,遇到这个错误:org.apache.hadoop.security.AccessControlException: Permission denied: user=cyg_server, acce转载 2014-02-09 20:50:35 · 2076 阅读 · 0 评论 -
配置secondarynamenode(一般都会配错的secondarynamenode)
secondary namenoded 配置很容易被忽视,如果jps检查都正常,大家通常不会太关心,除非namenode发生问题的时候,才会想起还有个secondary namenode,它的配置共两步: 集群配置文件conf/master中添加secondarynamenode的机器名修改/添加 hdfs-site.xml中如下属性:dfs.http.addr转载 2014-02-09 20:54:12 · 4053 阅读 · 0 评论 -
天朝什么时候开启自己的浪潮——读《浪潮之巅》和《大数据》的感想
《浪潮之巅》是一本描述IT产业历史的书籍,在未出版前就受到众多网友的热捧,自2011年8月出版以来,一直处于各大电商图书畅销版的前端。当我利用亚马逊节假日低价促销的时机为这本著作下单时,亚马逊又为我“捆绑”推荐了另一本新书——《大数据》,由于被商品描述和目录里出现的“大数据”、“商业智能”等词语所吸引,所以决定一起买单。当读完《浪潮之巅》,我还陶醉在书里为我们展现的一次次IT浪潮的场景,开转载 2014-02-11 22:34:53 · 911 阅读 · 1 评论 -
hadoop 中文wiki
首页hadoop一个用于在普通硬件构成 的大集群上运行应用程序的框架。Hadoop框架透明地为应用程序提供可靠性与数据移动保障。Hadoop实现了一个被称为mapReduce的 计算模型,在这个计算模型中应用程序被分为很多的小块,每一块都能在集群中的任意节点上执行或重新执行。另外,它还提供了一个分布式文件系统(HDFS)来在计算节 点上存储数据,为集群提供了非常高的聚合带宽。在本框转载 2014-02-18 11:08:14 · 1551 阅读 · 0 评论 -
SQL到NOSQL的思维转变
NOSQL系统一般都会宣传一个特性,那就是性能好,然后为什么呢?关系型数据库发展了这么多年,各种优化工作已经做得很深了,NOSQL系统一般都是吸收关系型数据库的技术,然后,到底是什么因素束缚了关系型数据库的性能呢?我们从系统设计的角度看这个问题。1, 索引支持。关系型数据库创立之初没有想到今天的互联网应用对可扩展性提出如此高的要求,因此,设计时主要考虑的是简化用户的工作,SQL语言的产生促转载 2014-02-20 16:02:48 · 991 阅读 · 0 评论 -
搭建hadoop cdh4.5版笔记
1.hadoop cdh各子项目列表,可以手动下载安装配置,也可以yum安装。http://archive.cloudera.com/cdh4/cdh/4/2.下载各版本压缩包,解压后放置到相应目录,配置环境变量信息修改目录/etc/profile,在文件最后添加各项目安装路径export JAVA_HOME=/usr/java/jdk1.7.0_09/export JR原创 2013-12-31 14:35:57 · 6122 阅读 · 1 评论 -
Hadoop Metrics体系分析之一:认识Metrics
对于分布式软件系统来说Metrics已经成为了不可缺少的组成部分,通过它我们可以了解系统的运行状况、健康状况、性能状况,通过对历史数据的分析,也可以帮助我们发现系统缺陷以及避免系统不稳定的发生。比如通过JVM数据我们可以优化系统GC策略,通过TPS和latency数据可以获知系统的压力和性能表现。Hadoop作为目前流行的分布式计算系统,提供了一套简单有效的metrics框架。接下来通过对转载 2014-02-07 20:33:45 · 2664 阅读 · 1 评论 -
Hadoop Metrics体系分析之二:Hadoop Metrics实现
我们如何才能获知一个软件系统的运行状况?如何才能将软件的运行数据暴露给用户查看?通过hadoop的metrics框架就能做到这一点。它可以帮助我们计算数据,收集数据,发送数据,这一切仅需要我们建立几个数据类和调用几个接口。Hadoop metrics的总体框架从上面这张其他同学绘制的类图可以看出几个重要的组成部分:MetricsContext通过Contex转载 2014-02-07 20:35:13 · 3747 阅读 · 1 评论 -
中小规模Hadoop集群优化
我们有一个Hadoop集群从上个月开始遇到一系列性能问题,在逐一解决的过程中,积累了以下的优化经验。1. 网络带宽Hadoop集群的服务器在规划时就在统一的交换机下,这是在官方文档中建议的部署方式。但是我们的这台交换机和其他交换机的互联带宽有限,所以在客户端遇到了HDFS访问速度慢的问题。把操作集群的客户端也联入DataNode的交换机内部,解决了这个问题。转载 2014-01-26 20:29:43 · 969 阅读 · 0 评论 -
在Hadoop中提升task的启动速度
在增量DUMP过程中,我们的job比较小,但是启动非常频繁,每个job的执行时间短,通过执行的日志发现,有时会出现一个job的启动时间很长,需要几十秒。由于我们很看重增量的速度,所以几十秒的等待是不可接受的。分析:我们当时使用的Hadoop CDH3 Beta4 的版本。通过ganglia图表分析,出问题的tasktracker会出现一些流量的凸起。但是离带宽限制还很远。通过仔细分转载 2014-01-26 20:01:30 · 1018 阅读 · 0 评论 -
hadoop使用过程中的一些小技巧
1.在Eclipse下的hadoop mapred调试对于小数据量的调试,可以再本机下载并安装cywin,之后将cywin的bin目录添加到系统的Path环境变量中,将hadoop的core包添加到classpath中。此时就可以在Eclipse下调试你的mapred程序,这时hadoop是在local模式下运行的,如果把hadoop的源代码关联进来,你还可以在他的内部处理中设置断点。转载 2014-01-26 21:09:15 · 809 阅读 · 0 评论 -
使用大数据时,别忘了关注Linux内存管理器
声明:我们常常以为,一旦我们(的代码)出了什么状况,那肯定是操作系统在作祟,而在99%的情况下,结果都会是别的原因。因此我们会谨慎地作出是操作系统导致了某个问题这样的假设,除非你遇到了与下面的例子类似的情况。一切从我们的一个客户报告了他们的CitusDB集群的性能问题开始。这个客户设计的集群使得他们的工作数据集合可以放进内存,但是他们的查询次数显示他们的查询已经需要访问磁盘。这自然会导致查转载 2014-02-06 22:15:47 · 657 阅读 · 0 评论 -
Hadoop Metrics体系分析之三:构建自己的Metrics
大型分布式系统中需要metrics来了解系统状态已成为系统必需的功能之一。其实测试系统甚至测试用例中也同样需要metrics。通过这些指标我们可以了解测试的进度、状况、以及一些过程情况,比如性能指标和一些无法用是否判断数据。下面我们就用一个简单的例子来看看如何使用hadoop metrics。创建UpdaterUpdater是一个拥有doUpdates方法的接口,将实现了这个接口的转载 2014-02-07 20:36:25 · 1752 阅读 · 0 评论 -
Hadoop笔记本
海量数据 那些年Google公开的大数据领域论文 大数据量,海量数据 处理方法总结 布隆过滤器应用 Google Dremel 原理 – 如何能3秒分析1PB Google Spanner原理- 全球级的分布式数据库 悉数那些“巨型”数据仓库 Hadoop在业界的使用情况转载 2014-02-08 20:10:00 · 882 阅读 · 0 评论 -
编译 hadoop 2.2.0
Hadoop 2.2 是 Hadoop 2 即yarn的第一个稳定版。并且解决单点问题。maven安装[andy@s41 ~]$ wget http://mirrors.cnnic.cn/apache/maven/maven-3/3.1.1/binaries/apache-maven-3.1.1-bin.tar.gz解压后放到/usr/local目录下。增加国内mave转载 2014-02-09 09:28:51 · 863 阅读 · 0 评论 -
yarn hadoop mapreduce 2.0 编译
下载[zhouhh@h185 ~]$ wget http://labs.mop.com/apache-mirror/hadoop/chukwa/stable/chukwa-0.4.0.tar.gz[zhouhh@h185 ~]$ wget http://labs.mop.com/apache-mirror/hadoop/common/hadoop-2.0.1-alpha/hadoop-2.0转载 2014-02-09 09:30:15 · 3754 阅读 · 0 评论 -
Twitter Storm:开源实时Hadoop
Twitter将Storm正式开源了,这是一个分布式的、容错的实时计算系统,它被托管在GitHub上,遵循 Eclipse Public License 1.0。Storm是由BackType开发的实时处理系统,BackType现在已在Twitter麾下。GitHub上的最新版本是Storm 0.5.2,基本是用Clojure写的。Storm为分布式实时计算提供了一组通用原语,可被用于转载 2014-02-07 20:27:28 · 687 阅读 · 0 评论 -
使用sqoop1导出mysql数据到hbase中
安装配置cdh5.03版sqoop2-1.99.3导入数据1.下载sqoop2:http://www.cloudera.com/content/support/en/downloads/cdh/cdh-5-0-3.html2.无法启动配置server/conf下catalina.properties文件,把所有hadoop的共享jar包配置到sqoop环境变量中,可以参考官方文档搞定。原创 2014-07-18 12:54:56 · 3323 阅读 · 0 评论 -
(一) hbase+solr概念和环境搭建
(一) hbase+solr概念和环境搭建概念:Hadoop实现了一个分布式文件系统(HadoopDistributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽原创 2014-07-24 12:13:36 · 14213 阅读 · 19 评论 -
Hadoop2.4.0 Eclipse插件制作
跌跌撞撞两天装Hadoop2.4.0的环境,今天终于可以尝试写点程序了,想了一想,不得其法,但有一点是肯定的,那就是需要用eclipse,查了一上午的资料,怎么讲的都有,最后锁定了这个帖子,hadoop2x-eclipse-plugin。想用Github下载,但是最后下载失败,页面右侧有个Download ZIP,用这个下载成功。下边来说说我的整个制作过程吧:想导入到eclipse中制作,转载 2014-11-24 14:43:47 · 3977 阅读 · 0 评论 -
启动hbase .meta 启动不成功
抛如下异常:2015-01-03 13:41:15,712 WARN [RS_LOG_REPLAY_OPS-fetch-hadoop-slave1:60020-0] wal.HLogSplitter: Could not open hdfs://fetch-hadoop-master:9100/hbase/WALs/fetch-hadoop-slave3.com,60020,14175042原创 2015-01-03 13:53:28 · 2036 阅读 · 0 评论 -
Hbase的regionServer无法启动报ClockOutOfSyncException解决方法
2015-01-02 23:00:37,377 FATAL [regionserver60020] regionserver.HRegionServer: Master rejected startup because clock is out of sync同步所有节点的时间,或者使用网络时钟ntpsalt '*' cmd.run "date -s '2015-01-03 13:37原创 2015-01-03 13:40:30 · 1242 阅读 · 0 评论 -
hbase shell 常用命令
hbase Shell 保存历史命令可以在你自己的Home目录下创建一个.irbrc文件. 在这个文件里加入自定义的命令。有一个有用的命令就是记录命令历史,这样你就可以把你的命令保存起来。$ more .irbrcrequire 'irb/ext/save-history'IRB.conf[:SAVE_HISTORY] = 100IRB.conf[:HISTORY_FI原创 2015-06-17 09:00:03 · 2623 阅读 · 0 评论 -
hadoop2.4.0源码编译
1. 前言Hadoop-2.4.0的源码目录下有个BUILDING.txt文件,它介绍了如何在Linux和Windows下编译源代码,本文基本是遵照BUILDING.txt指示来操作的,这里再做一下简单的提炼。第一次编译要求能够访问互联网,Hadoop的编译依赖非常多的东西,一定要保证机器可访问互联网,否则难逐一解决所有的编译问题,但第一次之后的编译则不用再下载了。2. 安装依赖在转载 2014-11-03 13:10:43 · 817 阅读 · 0 评论 -
云计算平台管理的三大利器Nagios、Ganglia和Splunk
综合利用Nagios、Ganglia和Splunk搭建起的云计算平台监控体系,具备错误报警、性能调优、问题追踪和自动生成运维报表的功能。有了这套系统,就可轻松管理Hadoop/HBase云计算平台。云计算早已不是停留在概念阶段了,各大公司都购买了大量的机器,开始正式的部署和运营。而动辄上百台的性能强劲的服务器,为运营管理带来了巨大的挑战。如果没有方便的监控报警平台,对于管理员而言犹转载 2014-09-02 21:57:02 · 1640 阅读 · 0 评论 -
使用ganglia监控hadoop,hbase
gagnlia 安装笔记:查看linux版本[root@XAYQ-Test2 bin]# lsb_release -aLSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-am原创 2014-08-05 16:57:35 · 996 阅读 · 0 评论 -
使用Ganglia监控Hadoop,hbase
使用Ganglia监控Hadoop,hbaseGanglia是UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。访问http://172.22.14.6/ganglia/,查看被监控的指标图Metric 下拉菜单可以看到被监控的指标 ganglia 安装笔记:查看linux版本[root@XAYQ-Test2 bin]# lsb_release原创 2014-07-30 14:12:23 · 3990 阅读 · 0 评论 -
hbase导入数据总结:
目前有两种方式导入:1.使用sqoop工具导入。2.通过写hbase java api导入。总结:hbase的入库性能还行,查询效率高。 目前咱们的数据量很难遇到极端场景。1.使用sqoop 把cpp数据导入hbasesqoop思义sql to hadoop。sqoop特性:支持多种导入方式,包括指定列导入,指定格式导入,支持增量导入(有更新才导入)等等。原创 2014-08-05 16:37:28 · 3769 阅读 · 1 评论 -
java jvm GC 参数设置
programatically转载 2014-07-31 12:40:59 · 1446 阅读 · 0 评论 -
hbase关于bloom filter使用
主要来自:http://zjushch.iteye.com/blog/1530143 1.Bloomfilter的原理? 可参考 http://hi.baidu.com/yizhizaitaobi/blog/item/cc1290a0a0cd69974610646f.html 2.Bloomfilter在HBase中的作用? HBase利用Bloomfilter来提高随机读转载 2014-08-06 17:33:25 · 2204 阅读 · 0 评论 -
Hadoop 2.2 & HBase 0.96 Maven 依赖总结
由于Hbase 0.94对Hadoop 2.x的支持不是非常好,故直接添加Hbase 0.94的jar依赖可能会导致问题。 但是直接添加Hbase0.96的依赖,由于官方并没有发布Hbase 0.96的jar包,通过maven编译项目的时候会出现找不到jar包导致编译失败。 通过网上的资料,得知Hbase 0.94后版本,直接添加Hbase-Client的依赖,通过查询转载 2014-09-05 17:18:57 · 13180 阅读 · 1 评论 -
用jstack发现的一例hbase region server线程死锁
最近在升级hadoop集群的过程中,hbase偶尔出现无法读写的情况,看region server进程并没有挂掉,于是用jstack看下是什么情况:Found one Java-level deadlock:============================='IPC转载 2014-08-14 20:58:57 · 2287 阅读 · 0 评论 -
hbase中查看hlog文件内容
hbase中除了有查看hfile文件的命令,也提供也查看hlog文件的命令:在hbase的根目录下有个.logs目录,里面就是hlog文件,一台RegionServer机器对应一个文件。老的hlog文件会被移到.oldlogs目录:[[email protected] ~/dev/baoniu]$ hadoop fs -ls /hbase-0.90/转载 2014-08-14 20:57:40 · 7156 阅读 · 0 评论 -
HBase中的Client如何路由到正确的RegionServer
在HBase中,大部分的操作都是在RegionServer完成的,Client端想要插入,删除,查询数据都需要先找到相应的RegionServer。什么叫相应的RegionServer?就是管理你要操作的那个Region的RegionServer。Client本身并不知道哪个RegionServer管理哪个Region,那么它是如何找到相应的RegionServer的?本文就是在研究源码的基础上揭转载 2014-08-14 21:34:56 · 784 阅读 · 0 评论 -
学习hadoop过程中用到的linux命令:
1.查看防火墙是否关闭[root@master bin]# /etc/init.d/iptables status将指定账户添加到root管理员群组[root@slave2 hadoop]# chmod 740 /etc/sudoers [root@slave2 hadoop]# vi /etc/sudoers'root ALL=(ALL) ALL原创 2016-02-02 11:06:03 · 1350 阅读 · 1 评论 -
Hadoop管理员的十个最佳实践
前言接触Hadoop有两年的时间了,期间遇到很多的问题,既有经典的NameNode和JobTracker内存溢出故障,也有HDFS存储小文件问题,既有任务调度问题,也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷(短板),有些则是使用的不当。在解决问题的过程中,有时需要翻源码,有时会向同事、网友请教,遇到复杂问题则会通过mail list向全球各地Hado转载 2014-01-26 19:12:11 · 841 阅读 · 0 评论