- 博客(96)
- 资源 (6)
- 收藏
- 关注
原创 PIG执行MR时报Connection refused错误
2015-01-23 09:45:56,132 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - mapred.map.tasks is deprecated. Instead, use mapreduce.job.maps2015-01-23 09:45:56,132 [main] INFO org.apache.
2015-01-23 11:04:37 2342
原创 Solr安装
本文介绍的是Solr--4.4.0的安装1.安装jdk环境(1.6及以上)及tomcat2.下载官网solr的安装包solr-4.4.0.tgz并解压(此处以SOLR_DIR表示)3.复制SOLR_DIR/dist/solr-4.4.0.war 到tomcat的webapps目录下(tomcat下部署项目的方式之一,这纯粹看个人喜好)并启动tomcat,此时查看tomcat的日志cat
2013-09-24 12:34:46 13059
原创 HBase使用优化(持续更新)
这里只准备介绍我实际操作中遇到的一些使用优化或解决办法,想大致了解hbase优化的同学可以参考我之前转載的几篇博文。1.第一个我想说的是HBase的写操作,api层面上的优化(比如批量写,关闭wal之类的)我这里就不啰嗦了,我想要说的是rowKey的设计,这个问题一般会跟io的大小息息相关,io越大,rowKey的设计就必须更谨慎,避免出现数据热点,往往一个不好的设计会导致某些regionse
2013-07-18 10:27:30 16646
原创 Flume 1.3.1 启动脚本出错解决方法
在做批量部署和启动flume(flume-1.3.1)的时候,发现有些机器无法自启动,检查时发现启动时报错如下/opt/local/flume-1.3.1/bin/flume-ng: line 81: syntax error in conditional expression: unexpected token `('/opt/local/flume-1.3.1/bin/flume-ng:
2013-07-04 18:02:51 12189
转载 HBase 官方文档0.97.0
HBase 官方文档中文版0.97.0Copyright © 2012 Apache Software Foundation。保留所有权利。 Apache Hadoop, Hadoop, MapReduce, HDFS, Zookeeper, HBase 及 HBase项目 logo 是Apache Software Foundation的商标。
2013-05-29 17:57:55 15266
原创 Storm教程(翻译)
原文:https://github.com/nathanmarz/storm/wiki/Tutorial教程在这个教程里面我们将学习如何创建Topologies,并且把topologies部署到storm的集群里面去。Java将是我们主要的示范语言, 个别例子会使用python以演示storm的多语言特性。准备工作这个教程使用storm-starter项目里面的例子。我推荐你们下载
2013-04-11 14:39:47 22105
原创 Flume OG 与 Flume NG 的对比
很久没接触flume了,刚掀开官网一看,发现flume已然不是以前的那个flume了,其实早在flume技术群就听到NG这个字眼,以前没特注意,今天做了些对比,发现flume确实有了投胎换骨般的改变。首先介绍下Flume OG & Flume NG这两个概念Flume OG:Flume original generation 即Flume 0.9.x版本Flume NG:Flume nex
2013-04-09 16:36:02 8092 1
转载 Hadoop Map/Reduce教程
Hadoop Map/Reduce教程目的先决条件概述输入与输出例子:WordCount v1.0源代码用法解释Map/Reduce - 用户界面核心功能描述MapperReducerPartitionerReporterOutputCollector作业配置任务的执行和环境作业的提
2013-03-18 00:17:16 4991
原创 如何在界面定义数据库schema并自动生成数据库表、并支持智能导入数据
我现在想做这么一个东西,有点类似于数据交换,就是在前台界面定义数据表schema,然后在指定的数据库(最好能支持多种数据库)能自动建表,并能导入数据,比如数据可能都是字符串类型的,但是能通过前台定义的schema能自动转换类型并插入到数据库。望各位大仙能指导下,或者有没有现成的开源的东西可借鉴?...
2012-09-13 10:38:26 595
转载 HBase 官方文档0.90.4
HBase 官方文档0.90.4Copyright © 2010 Apache Software Foundation, 盛大游戏-数据仓库团队-颜开(译)Revision HistoryRevision 0.90.4配置,数据模型使用入门Abstract这是 Apache HBase的官方文档, Hbas
2012-07-16 15:47:17 4896
原创 hadoop集群升级手札
之前集群的配置为hadoop-0.20.3,hbase-0.90.4,zookeeper-3.3.4,hive-0.8.1。hadoop还算稳定,基本没什么bug,而hive基于hbse查询时真是问题百出,hbase各种bug,比如丢数据,丢表,regionserver频繁宕机,各种打补丁,改错误搞得我脑袋都要爆了。于是决定给hbase来一个彻底的升级替换。一. 先是把hbase升级为
2012-06-29 11:51:37 10164 2
转载 Java GC(垃圾回收)
1.java中GC 即垃圾收集机制是指jvm用于释放那些不再使用的对象所占用的内存。java语言并不要求jvm有gc,也没有规定gc如何工作。不过常用的jvm都有gc,而且大多数gc都使用类似的算法管理内存和执行收集操作。 垃圾收集的目的在于清除不再使用的对象。gc通过确定对象是否被活动对象引用来确定是否收集该对象。gc首先要判断该对象是否是时候可以收集。两种常用的方法是引用计
2012-06-20 11:09:56 3977
转载 HBase节点故障YouAreDeadException Server REPORT rejected
hbase性能测试,加载了一个晚上的数据,早上来时发现一个节点挂掉了,其他一切正常。查看日志,发下如下问题12/01/04 09:45:39 FATAL regionserver.HRegionServer: ABORTING region server serverName=hadoop5.site,60020,1325663355680, load=(requests=983, reg
2012-06-20 10:58:13 17528
原创 HBase MapReduce与Speculative Task
Speculative Task(推测式任务)是mapreduce框架中一个比较重要的优化策略。当某个server某个时间段处于忙碌状态而无法快速完成某个task(当然也可能是server本身性能低下),从而拖延了整个job的完成进度,此时若启用Speculative Task策略,jobtacker会为执行慢的task启动speculative task,多个相同的任务同时运行,哪个task
2012-06-19 16:43:16 5571
原创 HBase中Regionserver与Master时间不一致导致RegionServer无法启动ClockOutOfSyncException
启动HBase的时候,无法启动RegionServer,查看日志,错误如下2012-06-13 09:33:40,057 FATAL org.apache.hadoop.hbase.regionserver.HRegionServer: Master rejected startup because clock is out of syncorg.apache.hadoop.hbase.Cl
2012-06-13 18:33:06 28268
原创 Hadoop Map/Reduce内存限制
如何设置hadoop Map/Reduce任务的内存限制? ParameterTypeMeaningmapred.cluster.map.memory.mbset by admin, cluster-wideCluster definition of memory per map slot. The maximum am
2012-06-13 17:43:44 7901
原创 Flume数据推送(Push)
一直都是用flume的pull方式收集日志数据,为了便于以后对业务系统实时日志收集的扩展,今天研究了下push方式的日志收集。 1.首先agent端应该配置以下几种source(监听TCP/UDP端口): syslogUdp(port)监听Udp端口syslogTcp(port)监听Tcp端口sys
2012-05-28 18:49:03 6814
原创 Flume agent端event重复发送(数据暴增不一致)的问题
一直用flume做数据收集,用了好一阵子都没出现数据误差的问题,今天在导入数据的时候却突然出现了数据暴增的问题,查看原始数据文件,只有几十万条数据,可却收集到了几百万的event,而且还在持续的增加。很奇怪,首先以为是插件更新的问题,后来换成最原始的console作为Collector的sink,问题依旧存在。然后清理配置数据重新启动,问题还是没有解决。 查看原始数据并与原有的数据对
2012-05-28 18:28:13 6469
原创 HBase中LeaseException及ClosedChannelException解决办法
随着数据量的增大,HIVE查询HBase的时候又出现了scan数据缓慢的问题,上次是因为跨网段读数据没有设置client端cache,这次是在HBase regionserver的log中出现了如下错误: org.apache.hadoop.hbase.regionserver.LeaseException: lease '-8841369309248784313' does not ex
2012-05-28 17:22:51 8684
原创 Hive基本使用①
1.启动Hive$HIVE_HOME/bin/hive 如果使用内嵌Derby数据库作为metastore(本地metastore),那么仅支持单用户,而且在不同目录下运行hive(如果设置了hive的path),其metastore所在目录也不一样。建立使用独立metastore(比如mysql),又称远程metastore。 2.执行脚本文件hive -f f
2012-05-21 18:26:38 8021
转载 Hadoop动态添加删除datanode及tasktracker
首先建议datanode和tasktracker分开写独立的exclude文件,因为一个节点即可以同时是datanode和tasktracker,也可以单独是datanode或tasktracker。 1、删除datanode修改namenode上的hdfs-site.xmldfs.hosts /usr/local/hadoop/conf/datanode-allow-li
2012-05-17 18:10:16 4897
原创 Hadoop MapReduce时Too many open files解决办法
在HIVE执行MR的时候,报如下错误java.io.IOException: Call to server/10.64.49.21:9001 failed on local exception: java.io.IOException: Too many open files at org.apache.hadoop.ipc.Client.wrapException(Clien
2012-05-17 17:36:15 5332
原创 Linux Tab键命令补全失效解决办法
环境描述系统:Debian用户:hadoop 问题描述突然便出现了Tab键不能补全的问题,cat、ls、cd都如此,如下hadoop@Debian:/tmp$ vi no-sh: <( compgen -d -- 'no' ): No such file or directory-sh: '*.@(o|so|so.!(conf)|a|rpm|gif|GIF|jp?(e)
2012-05-16 17:03:35 56003 4
原创 Pig Hive对比
Pig Latin:数据流编程语言一个Pig Latin程序是相对于输入的一步步操作。其中每一步都是对数据的一个简单的变换。用Pig Latin编程更像在RDBMS中“查询规划器”(query planner)这一层对数据进行操作,查询规划器决定了如何将描述型语句转化为一系列系统化执行的步骤。Pig对它所处理的数据要求则宽松得多;可以在运行时定义模式,而且这是可选的。本质上,Pig可以
2012-05-11 16:27:55 18545
原创 由hbase.client.scanner.caching参数引发的血案
环境描述Hadoop 0.20.203.0Hbase 0.90.3Hive 0.80.1 问题描述 前几天,在HIVE执行SQL查询的时候出现了一个很奇怪的问题:就是每个SQL(涉及到MapReduce的SQL任务)在执行到某个百分比的时候,整个JOB会出现假死的情况。 2012-04-28 18:22:33,661 Stage-1 map = 0%
2012-05-04 23:19:24 9124 6
转载 Hadoop中Speculative Task调度策略
1. 背景Speculative Task,又叫推测式任务,是指在分布式集群环境下,因为程序bug,负载不均衡或者资源分布不均,造成同一个job的多个task运行速度不一致,有的task运行速度明显慢于其他task(比如:一个job的某个task进度只有10%,而其他所有task已经运行完毕),则这些task拖慢了作业的整体执行进度,为了避免这种情况发生,Hadoop会为该task启动spec
2012-05-04 21:55:17 26236 3
原创 Hadoop DataXceiver java.io.IOException: Connection reset by peer
最近执行mapreduce的时候老出现mapreduce的task执行不稳定的情况,有时候某个任务一直在重试,导致整个mapreduce一直处于一个阶段,就像卡住了一样,重试N久,最后可能几小时才执行完。于是乎只好查看各个目录下的log(问题跟踪解决http://blog.csdn.net/rzhzhz/article/details/7536285),发现datanode下出现了如下错误20
2012-04-27 15:49:48 4943
原创 Hive SQL语句中表名和查询字段名相同时不能执行解决办法
在执行hive查询的时候,SQL语句(eg.select action from action;)中如果表名和查询字段名相同时不能执行,报如下错误 FAILED: Error in semantic analysis: Line 1:7 Ambiguous table alias or column reference 'action'这是官方bug页,至今还是open状态
2012-04-27 15:32:38 9101
原创 关于flume中hbase插件数据误差的问题
前几天用到flume的日志收集,基于公司的业务对flume本身自带的hbase插件做了些改造,测试的时候却出现了丢数据和多数据的问题……1.首先查看collector的event数,是与原数据量相符的。所以在agent与collector的交互过程是没有问题的2.查看开发插件业务处理过程,看了好几遍感觉也没问题。3.于是问题只有可能出现在hbase的数据处理上了。本来是基于flume自
2012-04-25 19:41:43 4902
转载 linux awk使用详解
1.什么是awk? 你可能对UNIX比较熟悉,但你可能对awk很陌生,这一点也不奇怪,的确,与其优秀的功能相比,awk还远没达到它应有的知名度。awk是什么?与其它大多数UNIX命令不同的是,从名字上看,我们不可能知道awk的功能:它既不是具有独立意义的英文单词,也不是几个相关单词的缩写。事实上,awk是三个人名的缩写,他们是:Aho、(Peter) Weinberg和(Brain)Ker
2012-04-20 17:00:40 7835
转载 HBase性能优化方法总结
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,这里涉及的不多,这部分可以参考Hbase性能调优1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才
2012-04-20 15:55:34 19883 1
转载 HBase性能调优
因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。配置优化zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonServer
2012-04-20 15:42:58 15363
转载 Flume相关参数介绍
Flume配置文件(flume-site.conf)1、 watchdog watchdog.restarts.maxwatchdog每分钟重启的最大数??? 2、 common node flume.config.heartbeat.periodnode发送心跳周期,默认5000(毫秒)
2012-04-13 15:07:45 11937 1
原创 flume安装及配置
Flume安装 介绍Flume本身的安装比较简单(flume的介绍请参考http://blog.csdn.net/rzhzhz/article/details/7448633),安装前先说明几个概念,先看flume的架构1. Flume分三种角色 Mater: master负责配置及通信管理,是集群的控制器。 Collector: col
2012-04-11 15:37:49 16872
转载 flume 几个比较有用的source、sink和decorator
Source catalog:1.Console 控制台输出,可以带输出内容格式的参数比如console(“raw”), console(“json”)2.text("filename"[, format])一次读取文件内容,每一个换行做为一个事件。3.tail("filename"[,startFromEnd=false]{,delim="regex", delimMode=
2012-04-11 15:01:58 9487
原创 zookeeper集群安装
准备1. 下载zookeeper,下载地址http://www.apache.org/dyn/closer.cgi/zookeeper,此处为zookeeper-3.3.22. 分别解压至zookeepr集群机器(一般为基数台机器)相应目录(此处为$ZOOKEEPER_HOME),集群为mem1,mem2,mem3(hosts对应)。配置1.
2012-04-11 11:52:48 3999
转载 Cloudera Flume介绍
Flume是Cloudera提供的日志收集系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 上图的Flume的Architecture,在Flume中,最重要的抽象是data flow(数据流),data flo
2012-04-11 11:06:26 5787
原创 Hadoop&Hbase 备份方案--AvatarNode
Hadoop&Hbase 备份方案--AvatarNode 需求实现namenode的双机热备,保证Hadoop&Hbase的高可用性(HA)。 方案描述当主namenode所在服务器宕机的时候,其服务和数据可迅速,完整,无缝的迁移到备份namenode从而保证hadoop集群的高可用性,持续的向外提供服务。 测试环境虚拟机5台(1G内存,40G硬盘,ubu
2012-04-11 10:36:52 15007
原创 Hadoop 双机热备-AvatarNode部署
Hadoop 双机热备--AvatarNode部署部署环境虚拟机5台(1G内存,40G硬盘,ubuntu操作系统,Hadoop-0.20.2)hadoop1-virtual-machine 10.10.11.250 AvatarNode(primary)hadoop2-virtual-machine 10.10.11.152 AvataDataNodehadoop3-v
2012-04-11 10:34:46 19764 13
转载 Java中的OutOfMemoryError和JVM内存结构
OutOfMemoryError在开发过程中是司空见惯的,遇到这个错误,新手程序员都知道从两个方面入手来解决:一是排查程序是否有BUG导致内存泄漏;二是调整JVM启动参数增大内存。OutOfMemoryError有好几种情况,每次遇到这个错误时,观察OutOfMemoryError后面的提示信息,就可以发现不同之处,如:java.lang.OutOfMemoryError: Java heap
2012-03-08 00:22:17 9431
shopex 开发手册
2012-06-08
MongoDB资料shard,oplog等
2011-06-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人