
hadoop
awayyao
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
修改hadoop的备份系数dfs.replication
Hadoop中常常需要增加新的节点,或者变更备份系数。在完成这些操作后,往往出现数据未自动备份,或者数据节点不可用的情况。本文就讨论一下这个问题。 Hadoop的备份系数是指每个block在hadoop集群中有几份,系数越高,冗余性越好,占用存储也越多。备份系数在hdfs-site.xml中定义,默认值为3. 如何变更备份系数? 首先stop-all.sh停止节点,修原创 2012-05-30 14:03:22 · 4281 阅读 · 0 评论 -
Hive某些版本在查询多个小文件组成的hive表时时间超长
keywords: hive, slow query, many splits, inputformat level: high evidence: different version hive compare: 1 node, select count(1) from t, time less than 2 nodes, same query (t contains about 10原创 2012-06-19 17:52:04 · 594 阅读 · 0 评论 -
hadoop在reduce阶段出现DataXceiver数量的报错
keywords: hive query error, reduce phase error, datanote error level: critical evidence: execute large overwrite operation, aborting in reduce phase ==datanote== 2012-06-14 22:42:33,445 ERROR org原创 2012-06-19 17:50:33 · 1126 阅读 · 0 评论 -
Hadoop Mapreduce作业在reduce阶段出现Too may files 错误
key words: DataXceiverServer, Too many open files, ulimit level: critical evidence: ==datanode== 2012-06-14 04:13:54,011 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(原创 2012-06-19 17:48:43 · 706 阅读 · 0 评论 -
HIVE查询结果输出到HBASE故障排除一例
Hive是hadoop下的数据查询引擎,可以用类似SQL的语句实现对数据的查询聚合等操作。 HBASE是基于HADOOP HDFS的列数据库,能够快速的存取的特性,非常适合用于大维度的缓慢变化维度表的更新。 实际应用中先导入日志,在hive上建表,然后把聚合数据更新到HBase。最后,根据HBase的维度表和Hive的事实表Join后获得一些缓慢变化维度的统计信息。 Hive和Hbase的结原创 2012-05-23 18:27:10 · 1880 阅读 · 0 评论 -
使用sqoop工具进行数据表增量导入
sqoop工具是hadoop环境下连接关系数据库和hadoop存储系统的桥梁,支持多种关系数据源和hive,hbase表格的相互导入。 一般情况下,关系数据表存在于线上环境的备份环境,需要每天进行数据导入。如果数据表较大,我们通常不可能每次都进行全表的导入。幸运的是,sqoop提供了增量导入数据的机制。下面就以mysql数据表为例,看一个例子。 假设在本地假设了Mysql服务器,我们需要每天从原创 2012-06-05 17:16:32 · 5959 阅读 · 1 评论 -
[Hive on HBase] HBase从单点到集群
HBase默认安装只是在单个节点,能力有限,很难满足hive批量大数据的处理要求。我们需要把hbase扩展为多节点的集群。 首先,HBase依靠Zookeeper来获得集群节点信息,默认情况,zookeeper已经和hbase绑定了,只需要在hbase-site里配置好集群就可以。先停止hbase,然后修改配置文件: hbase.rootdir:hbase在hdfs中存储路径 dfs.r原创 2012-05-31 19:03:23 · 957 阅读 · 0 评论 -
hadoop任务进度暂定的一种可能
hadoop任务执行中,如果出现进度百分比停留在某个值很长时间的情况,可能是由于网络原因或防火墙原因造成slave节点无法连接到master节点造成的。hadoop运行环境需要打开多个50000以上的节点,所以一般需要将集群中的机器开放5万段的端口。原创 2012-05-31 13:31:57 · 200 阅读 · 0 评论 -
用hive工具处理日志产生会话信息
原始日志是用户的行为,按照用户和时间排序。我们将事件按间隔时间分成不同的会话,分析用户的会话行为。 hive中支持udf创建自定义函数。我们利用此功能来实现从原始记录产生会话。 例如原始数据如下: uid timestamp 1 1000 1 1250 1 2200 1 5000 2 2000 2 25原创 2014-02-13 10:42:21 · 304 阅读 · 0 评论