2016年05月_wzy0623

12月 08月 07月 06月 05月 04月 03月 02月 01月

原创在Hive上实现SCD

一、问题提出官方一直称Hive是Hadoop数据仓库解决方案。既然是数据仓库就离不开多维、CDC、SCD这些概念，于是尝试了一把在Hive上实现SCD1和SCD2。这有两个关键点，一个是行级更新，一个是生成代理键。行级更新hive本身就是支持的，但需要一些配置，还有一些限制。具体可参考http://blog.csdn.net/wzy0623/article/details/51

2016-05-26 17:18:34 4617

原创让Hive支持行级insert、update、delete

Hive从0.14版本开始支持事务和行级更新，但缺省是不支持的，需要一些附加的配置。要想支持行级insert、update、delete，需要配置Hive支持事务。一、Hive具有ACID语义事务的使用场景1. 流式接收数据。许多用户使用诸如Apache Flume、Apache Storm或Apache Kafka这样的工具将流数据灌入Hadoop集群。当这些工具以每秒数百行的频

2016-05-23 18:12:01 69382

转载 spark应用程序的运行架构

转自：spark应用程序的运行架构几个基本概念：（1）job：包含多个task组成的并行计算，往往由action催生。（2）stage：job的调度单位。（3）task：被送到某个executor上的工作单元。（4）taskSet：一组关联的，相互之间没有shuffle依赖关系的任务组成的任务集。一个应用程序由一个driver program和多个job构成。一个job由多

2016-05-18 09:32:02 1174

原创 PageRank算法在spark上的简单实现

在《Spark快速大数据分析》里有一段不明觉厉的Scala代码，只用了区区几行即实现了Google的PageRank算法，于是照猫画虎做了个小实验验证了一下。一、实验环境spark 1.5.0二、PageRank算法简介（摘自《Spark快速大数据分析》） PageRank是执行多次连接的一个迭代算法，因此它是RDD分区操作的一个很好的用例。算法会维护两个数据

2016-05-12 13:02:30 16612 2

原创为已存在的Hadoop集群配置HDFS Federation

一、实验目的1. 现有Hadoop集群只有一个NameNode，现在要增加一个NameNode。2. 两个NameNode构成HDFS Federation。3. 不重启现有集群，不影响数据访问。二、实验环境4台CentOS release 6.4虚拟机，IP地址为192.168.56.101 master192.168.56.102 slave1192.168

2016-05-06 09:59:08 6065

PD_导出模板.rtp

Powerdesigner 物理模型report模板，可用于生成数据字典Word文档。

2021-04-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 在Hive上实现SCD

原创 让Hive支持行级insert、update、delete