hadoop
awayyao
这个作者很懒,什么都没留下…
展开
-
修改hadoop的备份系数dfs.replication
Hadoop中常常需要增加新的节点,或者变更备份系数。在完成这些操作后,往往出现数据未自动备份,或者数据节点不可用的情况。本文就讨论一下这个问题。Hadoop的备份系数是指每个block在hadoop集群中有几份,系数越高,冗余性越好,占用存储也越多。备份系数在hdfs-site.xml中定义,默认值为3.如何变更备份系数?首先stop-all.sh停止节点,修原创 2012-05-30 14:03:22 · 4221 阅读 · 0 评论 -
Hive某些版本在查询多个小文件组成的hive表时时间超长
keywords: hive, slow query, many splits, inputformatlevel: highevidence:different version hive compare:1 node, select count(1) from t, time less than2 nodes, same query(t contains about 10原创 2012-06-19 17:52:04 · 567 阅读 · 0 评论 -
hadoop在reduce阶段出现DataXceiver数量的报错
keywords: hive query error, reduce phase error, datanote errorlevel: criticalevidence:execute large overwrite operation, aborting in reduce phase==datanote==2012-06-14 22:42:33,445 ERROR org原创 2012-06-19 17:50:33 · 1106 阅读 · 0 评论 -
Hadoop Mapreduce作业在reduce阶段出现Too may files 错误
key words: DataXceiverServer, Too many open files, ulimitlevel: criticalevidence:==datanode==2012-06-14 04:13:54,011 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(原创 2012-06-19 17:48:43 · 684 阅读 · 0 评论 -
HIVE查询结果输出到HBASE故障排除一例
Hive是hadoop下的数据查询引擎,可以用类似SQL的语句实现对数据的查询聚合等操作。HBASE是基于HADOOP HDFS的列数据库,能够快速的存取的特性,非常适合用于大维度的缓慢变化维度表的更新。实际应用中先导入日志,在hive上建表,然后把聚合数据更新到HBase。最后,根据HBase的维度表和Hive的事实表Join后获得一些缓慢变化维度的统计信息。Hive和Hbase的结原创 2012-05-23 18:27:10 · 1858 阅读 · 0 评论 -
使用sqoop工具进行数据表增量导入
sqoop工具是hadoop环境下连接关系数据库和hadoop存储系统的桥梁,支持多种关系数据源和hive,hbase表格的相互导入。一般情况下,关系数据表存在于线上环境的备份环境,需要每天进行数据导入。如果数据表较大,我们通常不可能每次都进行全表的导入。幸运的是,sqoop提供了增量导入数据的机制。下面就以mysql数据表为例,看一个例子。假设在本地假设了Mysql服务器,我们需要每天从原创 2012-06-05 17:16:32 · 5905 阅读 · 1 评论 -
[Hive on HBase] HBase从单点到集群
HBase默认安装只是在单个节点,能力有限,很难满足hive批量大数据的处理要求。我们需要把hbase扩展为多节点的集群。首先,HBase依靠Zookeeper来获得集群节点信息,默认情况,zookeeper已经和hbase绑定了,只需要在hbase-site里配置好集群就可以。先停止hbase,然后修改配置文件:hbase.rootdir:hbase在hdfs中存储路径dfs.r原创 2012-05-31 19:03:23 · 931 阅读 · 0 评论 -
hadoop任务进度暂定的一种可能
hadoop任务执行中,如果出现进度百分比停留在某个值很长时间的情况,可能是由于网络原因或防火墙原因造成slave节点无法连接到master节点造成的。hadoop运行环境需要打开多个50000以上的节点,所以一般需要将集群中的机器开放5万段的端口。原创 2012-05-31 13:31:57 · 178 阅读 · 0 评论 -
用hive工具处理日志产生会话信息
原始日志是用户的行为,按照用户和时间排序。我们将事件按间隔时间分成不同的会话,分析用户的会话行为。hive中支持udf创建自定义函数。我们利用此功能来实现从原始记录产生会话。例如原始数据如下:uid timestamp1 10001 12501 22001 50002 20002 25原创 2014-02-13 10:42:21 · 282 阅读 · 0 评论