医疗数据仓库项目

目录

技术架构

分层架构

ods:原封不动抽取数据

全量抽取

增量抽取

面向的主题

dw:模型设计(项目经理主导)

    模型 :                   

数据的清洗转换 

制作宽表

dm:指标加工

BI:数据报表展示

从0到1搭建医疗数仓的流程

源系统数据库和数据源连接方式

你对接过哪些ERP系统?

各个部门提供指标和加工口径(这是出示在应用层的数据)

DataX

DataX概述

DataX支持的数据源

使用方法

明确数据流向,使用datax.py生成对应json

填写json数据

查询数据

同步MySQL数据到HDFS案例

ODS层全量抽取

1.通过Hive建表

2.通过DataX抽取数据

数据流向

具体流程

创建json

创建抽取shell脚本

开始抽取

创建putShell脚本

创建修复分区的脚本

 查询数据

3.确定粒度和主键

4.确定各表之间关系

ODS层增量抽取

1.抽取过程

2.put过程

3.合并正式表和临时表

DW层制作宽表 

优惠券相关字段的计算逻辑

计算优惠券总额

计算优惠券分摊

如果优惠券分摊存在四舍五入的误差,需要进行处理 

还原优惠券实际分摊金额

宽表加工逻辑

Linux内的操作 


项目组多少人?

我是ETL组,三到六个人


技术架构

数仓:Hadoop CDH6.3.2+Hive3.1.2

数据同步:Datax

系统环境:Linux(Centos7)

任务调度:xxl-job


分层架构

ods:原封不动抽取数据

全量抽取

类似于数据迁移或数据复制,它将数据源中的表或视图的数据原封不动的从数 据库中抽取出来,并转换成自己的ETL 工具可以识别的格式。

第一次抽取,无论什么表都是全量抽取

增量抽取

只抽取自上次抽取以来数据库中要抽取的表中新增或修改的数据。在ETL 使用过程中,增量抽取较全量抽取应用更广。如何捕获变化的数据是增量抽取的关键。对捕获方法一般有两点要求:准确性,能够将业务系统中的变化数据按一定的频率准确地捕获到;性能,不能对业务系统造成太大的压力,影响现有业务。

事实表从第二次抽取开始,使用增量抽取

面向的主题

销售主题 (开发)

财务主题

采购主题

门店主题 (自己做)

会员主题 (自己做)

库存主题

dw:模型设计(项目经理主导)

该层宽表为事实表,ODS层的表为事务表

    模型 :                   

  • 星型模型(一期使用的就是该模型)
  • 雪花模型
  • 星座模型

数据的清洗转换 

去重

  • group by 
  • distinct 
  • row_number()over(partition by 有重复数据的字段 )

空值

  • 主键空值 , 一般是 删除 该条数据
  • 其他列空值, 一般会根据开发文档的要求去处理, 将 空格   'NULL' 等字符串列 转换成  null 值 数值型 一般转换成  0 

不规范数据 :

  • 身份证号
  • 手机号
  • 邮箱
  • IP     

码值的转换       

  • 支付码值
  • 性别            
  • 国家
  • 币种

制作宽表

数仓建模—宽表的设计 - 知乎

dm和ST:指标加工

该层指标表为事实表,DW层的宽表为事务表

根据公司各个业务部门提供的需求进行指标的开发

BI:数据报表展示


ETL处理过程


从0到1搭建医疗数仓的流程

项目准备 项目启动(1个月)

项目总体计划

项目启动会准备及所需材料

项目启动会召开

分析调研(和各个部门调研分析需求)\项目的架构设计(2个月)

系统开发和测试(3个月)


源系统数据库和数据源连接方式

你对接过哪些ERP系统?

海典 雨诺 用友 九鼎 舵手

各个部门提供指标和加工口径(这是出示在应用层的数据)


DataX

一文带你看懂DataX离线同步工具(图文并茂,看完就懂)_datax工具-CSDN博客

DataX概述

DataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle 等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。

源码地址:阿里云DataX源码

DataX支持的数据源

使用方法

明确数据流向,使用datax.py生成对应json

datax.py的路径

mysql→oracle

python datax.py  -r mysqlreader -w oraclewriter

mysql→mysql 

python datax.py -r mysqlreader -w mysqlwriter

oracle→mysql

python datax.py  -r oraclereader -w mysqlwriter

oracle→文本文件

python datax.py  -r mysqlreader -w txtfilewriter

 oracle→hdfs

python datax.py -r oraclereader -w hdfswriter

填写json数据

	--从oracle抽取数据到mysql的json
{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "oraclereader", --从oracle读取数据
                    "parameter": {
                        "column": ["*"], --你要抽取的字段
                        "connection": [
                            {
                                "jdbcUrl": ["jdbc:oracle:thin:@//192.168.68.42:1521/orcl"], 
--jdbc:oracle:thin:@//192.168.68.42:1521/orcl 连接oracle的方式 /orcl为数据库名
                                "table": ["emp"] --要读取的表名
                            }
                        ], 
                        "password": "123456", --密码
                        "username": "scott" --用户名
                         "where": ""  --where为过滤条件 可以省略
                    }
                }, 
                "writer": {
                    "name": "mysqlwriter",  --将数据写入mysql
                    "parameter": {
                        "column": ["*"],  
--你要更新数据的字段 字段属性 顺序 数量要和oracle相同
                        "connection": [
                            {
                                "jdbcUrl": "jdbc:mysql://192.168.232.67:3306/sys", 
--连接mysql的方式 sys为数据库名
                                "table": ["mydept"] --表名
                  
  • 11
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
数据仓库项目实战 pdf 是介绍数据仓库项目实施过程与经验的一本书籍。在这本书中,作者从理论基础到实践操作都进行了详细的阐述,使读者能够深入了解数据仓库项目的实施流程和关键要素。 首先,该书介绍了数据仓库项目的概念和背景,解释了数据仓库的作用和优势。它还介绍了数据仓库项目的整体架构和基本原则,包括数据采集、集成、清洗、转换和加载等步骤,以及数据仓库的模型设计和构建方法。 其次,该书详细讲解了数据仓库项目实施的关键要素和技术工具。它介绍了数据仓库项目团队的组织与管理,以及项目计划和进度控制的方法。它还提供了一些常用的数据仓库技术工具和平台,如ETL工具、数据挖掘工具和分析报告工具等,帮助读者选择合适的工具来支持数据仓库项目的实施过程。 最后,该书结合实际案例和项目经验,分享了一些数据仓库项目实施中的注意事项和解决方案。它介绍了一些常见的问题和挑战,如数据质量问题、数据安全问题和性能优化问题等,以及相应的解决方法。它还分享了一些成功的案例和最佳实践,以供读者参考和借鉴。 总的来说,数据仓库项目实战 pdf 是一本实用性很强的书籍,它全面介绍了数据仓库项目的实施过程和关键要素,为读者提供了一个指导和参考的框架,帮助他们顺利完成数据仓库项目的实施工作。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值