数据仓库
吾我
这个作者很懒,什么都没留下…
展开
-
数据仓库之数据一致性
数据仓库之数据一致性 不同阶段获取同样的指标,但是输出的数据不同,无法保持所有数据的一致性情况栗子:注册用户数: 是在公司表中存在,且公司名称不为空的数据。存在问题:在一月份注册数据10条,填写公司名称的有8条,此时统计注册公司数为: 月份 数量 1 8在2月份的时候未填写公司名称的用户,开始填写公司名称。然后3月份的时候再次统计注册公司数: 月份 数量 1原创 2017-01-18 15:42:45 · 4287 阅读 · 1 评论 -
监控数据仓库环境
数据仓库监控指标确定发生了什么增长,增长发生在什么地方,增长以什么速率发生确定哪些数据正在被使用估算最终用户得到的响应时间确定谁在实际使用数据仓库说明最终用户正在使用数据仓库中的多少数据精确支出数据仓库何时被使用监测数据仓库使用率水平数据监控处理期间,可以建立的数据概要文件数据仓库中所有表的目录这些表的内容概要数据仓库中表的增长情况概要用于访问表的可用的索引目录汇总表和汇总原创 2017-02-05 23:41:13 · 667 阅读 · 0 评论 -
数据仓库之系统开发周期(SDLC)
数据仓库SDLC实现数据仓库集成数据检验偏差针对数据编程设计DSS系统分析结果理解需求传统数据库SDLC收集需求分析设计编程测试集成实现原创 2017-02-05 23:01:13 · 793 阅读 · 0 评论 -
1.数据仓库-概览
数据仓库目前总共有4个部分: 1)ETL 2)数据模型 3)调度 4)可视化 一:ETL 1)目前ETL 主要使用kettle、Python、sql。 Kettle 在目前仓库的作用,更多的是从源库将数据抽取到数据仓库当中。 Sql 主要是数据的聚合和清洗 Python 主要数据的清洗。目前源数据库分为mongoDB 和 mysql, 所以在抽取这二者的数据库时...原创 2018-07-17 01:06:34 · 333 阅读 · 0 评论 -
2.数据仓库-kettle抽取Mysql数据
1) 打开Spoon,Spoon界面如下图2)点击左上角图标3)点击下拉菜单的【转换】4)点击【核心对象】中的 【输入】5)在展开的菜单中双击【表输出】6)双击【表输出】7)点击【新建】8)配置源数据库信息 选择就相应的数据库 选择相应的连接方式 填写数据库相关信息 (填写源数据库的相关信息)9)编写sql, 查询所需数据...原创 2018-07-17 01:10:25 · 4102 阅读 · 1 评论