2012年05月_awayyao

10月 06月 05月

原创 [Hive on HBase] HBase从单点到集群

HBase默认安装只是在单个节点，能力有限，很难满足hive批量大数据的处理要求。我们需要把hbase扩展为多节点的集群。首先，HBase依靠Zookeeper来获得集群节点信息，默认情况，zookeeper已经和hbase绑定了，只需要在hbase-site里配置好集群就可以。先停止hbase，然后修改配置文件：hbase.rootdir：hbase在hdfs中存储路径dfs.r

2012-05-31 19:03:23 930

原创 Ubuntu系统更换网卡后找不到网卡的解决

最近服务器检修，更换了主板硬件，用老的硬盘进入系统以后，发现只有本地回路，eth网卡所有都不见了。查了一下，ubuntu会将网卡的MAC信息写在/etc/udev/rules.d/70-persistent-net.rules这个文件中。更换了网卡后MAC地址变了，于是用老的配置文件就不能正确识别出新的网卡了。简单的方法就是删除这个文件，重启系统。参考：http://www.orzes

2012-05-31 14:35:37 2592

原创 hadoop任务进度暂定的一种可能

hadoop任务执行中，如果出现进度百分比停留在某个值很长时间的情况，可能是由于网络原因或防火墙原因造成slave节点无法连接到master节点造成的。hadoop运行环境需要打开多个50000以上的节点，所以一般需要将集群中的机器开放5万段的端口。

2012-05-31 13:31:57 176

原创修改hadoop的备份系数dfs.replication

Hadoop中常常需要增加新的节点，或者变更备份系数。在完成这些操作后，往往出现数据未自动备份，或者数据节点不可用的情况。本文就讨论一下这个问题。Hadoop的备份系数是指每个block在hadoop集群中有几份，系数越高，冗余性越好，占用存储也越多。备份系数在hdfs-site.xml中定义，默认值为3.如何变更备份系数?首先stop-all.sh停止节点，修

2012-05-30 14:03:22 4220

原创 HIVE查询结果输出到HBASE故障排除一例

Hive是hadoop下的数据查询引擎，可以用类似SQL的语句实现对数据的查询聚合等操作。HBASE是基于HADOOP HDFS的列数据库，能够快速的存取的特性，非常适合用于大维度的缓慢变化维度表的更新。实际应用中先导入日志，在hive上建表，然后把聚合数据更新到HBase。最后，根据HBase的维度表和Hive的事实表Join后获得一些缓慢变化维度的统计信息。Hive和Hbase的结

2012-05-23 18:27:10 1858

windows7 天气修复补丁

Windows7 提供了很多很好的桌面小工具，比如时钟，日历。但是当我们使用天气工具时，常常会发现天气小工具不能使用，还会出现这样的提示：该地区的服务无法启用。这是由于天气小工具不能访问国外的网站来获得天气信息造成的。胶囊软件修正了这个程序，并且在此基础上添加了湿度和风向显示。使得这个工具更加完美。下载软件包，直接安装即可解决。

2010-04-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人