- 博客(5)
- 资源 (1)
- 收藏
- 关注
原创 在Hive上实现SCD
一、问题提出 官方一直称Hive是Hadoop数据仓库解决方案。既然是数据仓库就离不开多维、CDC、SCD这些概念,于是尝试了一把在Hive上实现SCD1和SCD2。这有两个关键点,一个是行级更新,一个是生成代理键。行级更新hive本身就是支持的,但需要一些配置,还有一些限制。具体可参考http://blog.csdn.net/wzy0623/article/details/51
2016-05-26 17:18:34 4617
原创 让Hive支持行级insert、update、delete
Hive从0.14版本开始支持事务和行级更新,但缺省是不支持的,需要一些附加的配置。要想支持行级insert、update、delete,需要配置Hive支持事务。一、Hive具有ACID语义事务的使用场景1. 流式接收数据。许多用户使用诸如Apache Flume、Apache Storm或Apache Kafka这样的工具将流数据灌入Hadoop集群。当这些工具以每秒数百行的频
2016-05-23 18:12:01 69382
转载 spark应用程序的运行架构
转自:spark应用程序的运行架构几个基本概念:(1)job:包含多个task组成的并行计算,往往由action催生。(2)stage:job的调度单位。(3)task:被送到某个executor上的工作单元。(4)taskSet:一组关联的,相互之间没有shuffle依赖关系的任务组成的任务集。一个应用程序由一个driver program和多个job构成。一个job由多
2016-05-18 09:32:02 1174
原创 PageRank算法在spark上的简单实现
在《Spark快速大数据分析》里有一段不明觉厉的Scala代码,只用了区区几行即实现了Google的PageRank算法,于是照猫画虎做了个小实验验证了一下。一、实验环境spark 1.5.0二、PageRank算法简介(摘自《Spark快速大数据分析》) PageRank是执行多次连接的一个迭代算法,因此它是RDD分区操作的一个很好的用例。算法会维护两个数据
2016-05-12 13:02:30 16612 2
原创 为已存在的Hadoop集群配置HDFS Federation
一、实验目的1. 现有Hadoop集群只有一个NameNode,现在要增加一个NameNode。2. 两个NameNode构成HDFS Federation。3. 不重启现有集群,不影响数据访问。二、实验环境4台CentOS release 6.4虚拟机,IP地址为192.168.56.101 master192.168.56.102 slave1192.168
2016-05-06 09:59:08 6065
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人