CDA Level 1 数据分析师:2.3 表结构数据的获取方法
1. “应用”与“引用”
表格结构数据:应用
表结构数据:引用
应用:手动完成,操作不及时影响数据准确性
引用:产生连接关系,自动引用。数据源变化,表结构也会更新。
2. 关系型数据库管理系统
关系型数据库管理系统(RDBMS)主要任务是企业业务数据存储、检索、访问与共享
RDBMS→DB1(Table1,Table2,Table3)
→DB2(Table1,Table2,Table3)
→DB2(Table1,Table2,Table3)
1. 多层级结构
2. OLTP
3. 可量化、结构化数据
4. 提供大部分数据源
5. 不善于分析
3. 商业智能系统(BI)
用于企业决策者快速提供完整、准确、深入的数据分析结果,帮助企业决策之实现商业洞察
1. 强于分析
2. 多功能模块构成
3. 两种类型:
1. 企业商业智能系统
2. 敏捷性商业智能系统(Power BI)
4. 多维数据集
5. 所见即所得
4. ETL功能
将数据从数据源端经过抽取(Extract)、清洗转换(Transform)、加载(Load)到数据仓库
数据量大时候可以先抽取→加载→清洗(ELT)
1. E 抽取:创建与不同数据源的连接关系,对这些数据源中的数据进行引用
2. T 清洗转换:
1. 清洗:
筛选过滤不完整、错误、重复的数据记录(删除或补全影响业务较大的数据;人为或程序Bug;不合理的重复记录,如多录入了一次)
2. 转换:
1. 对“粒度”不一致的数据进行转换(如一个系列产品有多个型号,只关注一个系列的产品,需要将多个型号转换为一个系列)
2. 对业务规则不一致的数据进行转换(如:新旧物料号需先转换为新的物料号)
3. 非结构到结构化的转换(Level 1 不涉及)
3. L 加载:
将抽取出来的数据经过处理后存到数据仓库,进行存储和使用
数据仓库(DW)
除了数据库的内容,还要引用其他相关系统之外的数据(行业市场数据、供应商等公司外部的数据)
DW: DB + 网页 + CSV + TXT + 其他数据源
5. OLAP (联机分析处理)
连接信息孤岛、创建多维数据类型