- 博客(10)
- 资源 (6)
- 收藏
- 关注
原创 Flume数据推送(Push)
一直都是用flume的pull方式收集日志数据,为了便于以后对业务系统实时日志收集的扩展,今天研究了下push方式的日志收集。 1.首先agent端应该配置以下几种source(监听TCP/UDP端口): syslogUdp(port)监听Udp端口syslogTcp(port)监听Tcp端口sys
2012-05-28 18:49:03 6823
原创 Flume agent端event重复发送(数据暴增不一致)的问题
一直用flume做数据收集,用了好一阵子都没出现数据误差的问题,今天在导入数据的时候却突然出现了数据暴增的问题,查看原始数据文件,只有几十万条数据,可却收集到了几百万的event,而且还在持续的增加。很奇怪,首先以为是插件更新的问题,后来换成最原始的console作为Collector的sink,问题依旧存在。然后清理配置数据重新启动,问题还是没有解决。 查看原始数据并与原有的数据对
2012-05-28 18:28:13 6482
原创 HBase中LeaseException及ClosedChannelException解决办法
随着数据量的增大,HIVE查询HBase的时候又出现了scan数据缓慢的问题,上次是因为跨网段读数据没有设置client端cache,这次是在HBase regionserver的log中出现了如下错误: org.apache.hadoop.hbase.regionserver.LeaseException: lease '-8841369309248784313' does not ex
2012-05-28 17:22:51 8698
原创 Hive基本使用①
1.启动Hive$HIVE_HOME/bin/hive 如果使用内嵌Derby数据库作为metastore(本地metastore),那么仅支持单用户,而且在不同目录下运行hive(如果设置了hive的path),其metastore所在目录也不一样。建立使用独立metastore(比如mysql),又称远程metastore。 2.执行脚本文件hive -f f
2012-05-21 18:26:38 8032
转载 Hadoop动态添加删除datanode及tasktracker
首先建议datanode和tasktracker分开写独立的exclude文件,因为一个节点即可以同时是datanode和tasktracker,也可以单独是datanode或tasktracker。 1、删除datanode修改namenode上的hdfs-site.xmldfs.hosts /usr/local/hadoop/conf/datanode-allow-li
2012-05-17 18:10:16 4904
原创 Hadoop MapReduce时Too many open files解决办法
在HIVE执行MR的时候,报如下错误java.io.IOException: Call to server/10.64.49.21:9001 failed on local exception: java.io.IOException: Too many open files at org.apache.hadoop.ipc.Client.wrapException(Clien
2012-05-17 17:36:15 5344
原创 Linux Tab键命令补全失效解决办法
环境描述系统:Debian用户:hadoop 问题描述突然便出现了Tab键不能补全的问题,cat、ls、cd都如此,如下hadoop@Debian:/tmp$ vi no-sh: <( compgen -d -- 'no' ): No such file or directory-sh: '*.@(o|so|so.!(conf)|a|rpm|gif|GIF|jp?(e)
2012-05-16 17:03:35 56039 4
原创 Pig Hive对比
Pig Latin:数据流编程语言一个Pig Latin程序是相对于输入的一步步操作。其中每一步都是对数据的一个简单的变换。用Pig Latin编程更像在RDBMS中“查询规划器”(query planner)这一层对数据进行操作,查询规划器决定了如何将描述型语句转化为一系列系统化执行的步骤。Pig对它所处理的数据要求则宽松得多;可以在运行时定义模式,而且这是可选的。本质上,Pig可以
2012-05-11 16:27:55 18560
原创 由hbase.client.scanner.caching参数引发的血案
环境描述Hadoop 0.20.203.0Hbase 0.90.3Hive 0.80.1 问题描述 前几天,在HIVE执行SQL查询的时候出现了一个很奇怪的问题:就是每个SQL(涉及到MapReduce的SQL任务)在执行到某个百分比的时候,整个JOB会出现假死的情况。 2012-04-28 18:22:33,661 Stage-1 map = 0%
2012-05-04 23:19:24 9132 6
转载 Hadoop中Speculative Task调度策略
1. 背景Speculative Task,又叫推测式任务,是指在分布式集群环境下,因为程序bug,负载不均衡或者资源分布不均,造成同一个job的多个task运行速度不一致,有的task运行速度明显慢于其他task(比如:一个job的某个task进度只有10%,而其他所有task已经运行完毕),则这些task拖慢了作业的整体执行进度,为了避免这种情况发生,Hadoop会为该task启动spec
2012-05-04 21:55:17 26252 3
shopex 开发手册
2012-06-08
MongoDB资料shard,oplog等
2011-06-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人