2.1 表结构数据 (10%)

本文详细探讨了表结构数据的特点,包括字段、记录、主键的定义,以及事实表和维度表的区别。还介绍了RDBMS、OLTP、BI、ETL和数据仓库在数据处理中的作用,涵盖了数据获取、清洗、分析和可视化的完整流程。
摘要由CSDN通过智能技术生成

1、表结构数据

字段:整列数
记录:整行数
维度:业务角度
度量:业务行为结果
维度字段:文本型(状态)
度量字段:数值型(交易结果)


2、事实表&维度表

维度表:只包含维度,只是描述性(产品表,品牌表,客户表)
事实表:包含维度和度量(销售,采购,库存都有交易情况和金额数量)


3、表结构数据特征 

  1、以字段或记录作为数据的引用、操作及计算的基本单位的数据

1. 第一行为:字段名(唯一)
2. 第二行以后成为:记录
3. 字段不能重名
4. 一个字段有一种类型(整列都是一个类型)

  2.、所有字段记录行数相同

     1. 方形结构(数据要完整,是一个矩阵,连续方形排列;有空值占位NULL)
     2. 记录行数相同
     3. 处理缺失值:
            文本型:
                 1. 影响不大:忽略或替换
                 2. 影响大:与业务员确认后替换或核实后删除
            数值型:
                 应用环节展开

3、一个表中有且只有一个主键

1. 主键物理意义:
    1. 单字段主键:一个字段构成
    2. 多字段联合主键
    3. 非空不重复(主键不能存在NULL,主键唯一)
    4. 定位记录行、字段名+主键值定位具体数值
    5. 以 XXID,XXNo,XX编号 为命名
2. 业务意义:
    1. 表的业务记录单位。在一个数据表中所有非主键的字段都围绕主键展开


4、表结构数据获取方法

1、 “应用”与“引用”

表格结构数据:应用
表结构数据:引用

应用:手动完成,操作不及时影响数据准确性
引用:产生连接关系,自动引用。数据源变化,表结构也会更新。

2、关系型数据库管理系统(RDBMS)

关系型数据库管理系统(RDBMS)主要任务是企业业务数据存储、检索、访问与共享
RDBMS→DB1(Table1,Table2,Table3)
     →DB2(Table1,Table2,Table3)
     →DB2(Table1,Table2,Table3)

1. 多层级结构
2. OLTP
3. 可量化、结构化数据
4. 提供大部分数据源
5. 不善于分析

On-Line Transaction Processing联机事务处理过程(OLTP),也称为面向交易的处理过程。

基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用户操作快速响应的方式之一。

3 、商业智能系统-BI(Business Intelligence)

用于企业决策者快速提供完整、准确、深入的数据分析结果,帮助企业决策之实现商业洞察
1. 强于分析
2. 多功能模块构成
3. 两种类型:
    1. 企业商业智能系统
    2. 敏捷性商业智能系统(Power BI)
4. 多维数据集
5. 所见即所得

4、 ETL(Extract-Transform-Load)

将数据从数据源端经过抽取(Extract)、清洗转换(Transform)、加载(Load)到数据仓库
数据量大时候可以先抽取→加载→清洗(ELT)

1. E 抽取:创建与不同数据源的连接关系,对这些数据源中的数据进行引用
2. T 清洗转换:
    1. 清洗:
        筛选过滤不完整、错误、重复的数据记录(删除或补全影响业务较大的数据;人为或程序Bug;不合理的重复记录,如多录入了一次)
    2. 转换:
        1. 对“粒度”不一致的数据进行转换(如一个系列产品有多个型号,只关注一个系列的产品,需要将多个型号转换为一个系列)
        2. 对业务规则不一致的数据进行转换(如:新旧物料号需先转换为新的物料号)
        3. 非结构到结构化的转换(Level 1 不涉及)
3. L 加载:
    将抽取出来的数据经过处理后存到数据仓库,进行存储和使用
    数据仓库(DW)
    除了数据库的内容,还要引用其他相关系统之外的数据(行业市场数据、供应商等公司外部的数据)
    DW: DB + 网页 + CSV + TXT + 其他数据源

5、 数据仓库DW(Data Warehouse)

用来存储分析所需要的的不同数据源上的所有相关数据信息

6、 OLAP(Online Analytical Processing,联机分析处理

连接信息孤岛、创建多维数据类型

一个完整的BI项目,先后要涉及到:

ETL——DW——OLAP——数据可视化  4个软件

还要经过业务理解,多维度数据获取加工,多维数据获取创建,透视分析规则创建以及分析结果展现。


5、表结构数据的使用方法

1、表结构数据的横向合并

将不同表中的字段信息合并到同一个表中使用

1. 通过公共字段匹配
    具有相同的记录值的字段(如两个表都有:相同的字段值(不是字段名),允许不一一对应)
2. 左表与右表
    对于SQL:   A join B   A为左表  B为右表
    连接方向:
        1. 左连接:left join  左表为主表,左表应该出ID
        2. 右连接:right join  右表为主表,右表应该出ID
        3. 内连接: inner join  没有主副之分,只保存公共的区域
3. 对应关系
    决定连接结果行数是对项乘积的结果
    
    一对多,多对一,多对多
    一般选择一对多的连接方式(主键→非主键)

4. E-R 图
    多表连接的鸟瞰图

2、表结构数据的纵向合并

多表中的记录合并到同一个表中使用的合并方式称为纵向合并
1. 去重合并(UNION)和全合并(UNION ALL)
2. 满足条件:
    1. 字段个数相同(列相同)
    2. 相同字段的类型相同

3、表结构数据的汇总 

数据透视:对零散数据进行汇总的分析

1. 维度:业务观测角度  (员工)分组依据

2. 度量:业务行为结果  (销售金额)
3. 汇总计算规则:衡量业务好坏  (对销售金额求SUM)聚合规则

透视图可以在零散的表格记录中汇总:各个员工的销售业绩

聚合规则:
1. 合并(SUM)
2. 计数(COUNT /  DISTINCOUNT)
3. 平均 (AVERAGE)
4. 最大值 (MAX)
5. 最小值(MIN)

4. 数据分析的业务意义 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值