![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
D调的Stanley
这个作者很懒,什么都没留下…
展开
-
hive拉链表详解
新增及变化数据如下图所示,2020-01-01为初始化数据,在2020-01-02的时候jacky约增加了500,数据库里又新增了lucy这个新用户。对于数据仓库来说jacky就是变化的数据,lucy就是新增的数据。如何将新增以及变化的数据导入数据仓库如果在不占用过多空间的情况下,又能在保留历史数据的同时,体现最新的状态,拉链表是一个不错的选择什么是拉链表如下图所示,前一日全量数据和当日新增以及变化的数据合并形成一张新的全量表,就像是拉链的形状。如何实现如下图所示,u原创 2020-05-22 16:55:13 · 2181 阅读 · 2 评论 -
hadoop源码包编译验证 snappy 详细流程
下载安装依赖包yum -y install lzo-devel zlib-devel gcc gcc-c++ autoconf automake libtool openssl-devel fuse-devel cmake使用root用户安装protobuf ,进入protobuf解压路径./configuremake && make install使用root用户安装sna...原创 2018-04-08 13:13:11 · 561 阅读 · 0 评论 -
hadoop 配置hive 详细流程
解压hive压缩包将hive目录下conf文件夹下 hive-env.sh.template 拷贝成 hive-env.sh,并增加四行内容在hive-env.sh增加四行内容exportHADOOP_HOME=/opt/modules/hadoop-2.5.0-cdh5.3.6exportHIVE_CONF_DIR=/opt/modules/hive-0.13.1-cdh5.3.6/confex...原创 2018-03-31 16:25:14 · 2398 阅读 · 0 评论 -
spark screaming 模拟实战项目实例
由于没有网络日志,我们这里用之前写的python脚本爬取新浪微博热搜模拟产生日志文件,通过kafka和flume整合 将日志定时抽取到 spark上进行处理,微博热搜是十分钟更新一次,我们这里也设置十分钟的定时任务,具体步骤如下第一步编写python脚本获取微博热搜 实时排名,主题和url,然后运行测试,代码如下#!python2# -*- coding:utf-8 -*-import url...原创 2018-05-03 23:15:43 · 1947 阅读 · 0 评论