在Hive上实现SCD

一、问题提出         官方一直称Hive是Hadoop数据仓库解决方案。既然是数据仓库就离不开多维、CDC、SCD这些概念,于是尝试了一把在Hive上实现SCD1和SCD2。这有两个关键点,一个是行级更新,一个是生成代理键。行级更新hive本身就是支持的,但需要一些配置,还有一些限制。具体可参考http://blog.csdn.net/wzy0623/article/details/51...
阅读(1242) 评论(0)

让Hive支持行级insert、update、delete

Hive从0.14版本开始支持事务和行级更新,但缺省是不支持的,需要一些附加的配置。要想支持行级insert、update、delete,需要配置Hive支持事务。 一、Hive具有ACID语义事务的使用场景 1. 流式接收数据。 许多用户使用诸如Apache Flume、Apache Storm或Apache Kafka这样的工具将流数据灌入Hadoop集群。当这些工具以每秒数百行的频...
阅读(7141) 评论(0)

spark应用程序的运行架构

转自:spark应用程序的运行架构 几个基本概念: (1)job:包含多个task组成的并行计算,往往由action催生。 (2)stage:job的调度单位。 (3)task:被送到某个executor上的工作单元。 (4)taskSet:一组关联的,相互之间没有shuffle依赖关系的任务组成的任务集。 一个应用程序由一个driver program和多个job构成。一个job由多...
阅读(602) 评论(0)

PageRank算法在spark上的简单实现

在《Spark快速大数据分析》里有一段不明觉厉的Scala代码,只用了区区几行即实现了Google的PageRank算法,于是照猫画虎做了个小实验验证了一下。 一、实验环境 spark 1.5.0 二、PageRank算法简介(摘自《Spark快速大数据分析》)         PageRank是执行多次连接的一个迭代算法,因此它是RDD分区操作的一个很好的用例。算法会维护两个数据...
阅读(3602) 评论(1)

为已存在的Hadoop集群配置HDFS Federation

一、实验目的 1. 现有Hadoop集群只有一个NameNode,现在要增加一个NameNode。 2. 两个NameNode构成HDFS Federation。 3. 不重启现有集群,不影响数据访问。 二、实验环境 4台CentOS release 6.4虚拟机,IP地址为 192.168.56.101 master 192.168.56.102 slave1 192.168...
阅读(3929) 评论(0)
    个人资料
    • 访问:1304689次
    • 积分:17419
    • 等级:
    • 排名:第550名
    • 原创:254篇
    • 转载:20篇
    • 译文:5篇
    • 评论:155条
    博客专栏
    文章分类
    最新评论