文章目录
【后续会持续更新CDA Level I&II备考相关内容,敬请期待】
【考试大纲】
【考试内容】
【备考资料】
1、表格结构数据特征(占比2%)
1.1、表格结构数据概念
数据总体上可以分为结构化数据和非结构化数据。结构化数据又分为表格结构数据和表结构数据。以单元格为基本的加工处理单位的数据结构就叫做表格结构数据。
1.2、表格结构数据处理工具&数据层级
- 处理工具:Excel,WPS,Numbers。
- 数据层级:对象间的父子级关系
- 父级->子级:一个父级对象下包含多个不同子级对象
- 子级->父级:一个子级对象只能属于某一特定的父级对象
1.3、表格结构数据特征
- 计算基本单元:单元格。单元格的集合叫做单元格区域,单元格区域的集合叫做工作表,工作表的集合叫做工作簿。
- 表格结构数据的数据类型
- 单元格的格式属性
2、表格结构数据获取、引用、查询与计算(占比3%)
2.1、表格结构数据的获取方法
- 从企业后台数据库获取,获取流程如下图
- 前端操作平台获取数据
- 从企业外部渠道获取数据
2.2、表格结构数据使用(引用)方法
单元格区域的特征:单元格区域指的是单个的单元格、或者多个单元格组成的区域、或者是整行或整列等,单元格中的数据是方形的,不同字段值的行数必须相同。
- 单元格区域需要由连续的单元格构成
- 单元格区域需要是一个方形区域
- 单元格值的应用方法
- 引用同一工作表内单元格值:通过“=列号+行号”定位单元格,例如“=A3”引用的就是A列的第三行
- 引用不同工作表内单元格值:通过“=表名!+列号+行号”定位单元格,例如“=SHEET1!A3”引用的就是SHEET1工作表中的A列的第三行
- 单元格区域值得引用方法
- 引用相同工作表内得单元格区域:”=左上单元格:右下单元格“,例如”=A3:B5“
- 引用不同工作表内得单元格区域:”=表名!左上单元格:右下单元格“,例如”=SHEET1!A3:B5“
- 引用多行:”=上边行号:下边行号“,例如”=sum(10:20)“,统计10到20行的值
- 引用多列:”=左边列号:右边列号“,例如”=sum(A:B)“,统计A列到B列的值
2.3、表格结构数据查询方法
- 使用表格工具搜索功能进行查询
- 使用查询函数vlookup进行查询,vlookup函数说明如下:
2.4、表格结构数据的计算
2.4.1、函数的组成部分
2.4.2、直接计算与函数计算
- 直接计算
- 函数计算
3、表结构数据特征(占比5%)
3.1、表结构数据
3.2、事实表和维度表
3.3、表结构数据特征
3.3.1、以字段或记录座位数据的引用、操作及计算的基本单位的数据
- 第一行为标题行(由所有字段名构成的第一行信息)
- 第二行以后成为记录(第二行还是到最后一行)
- 字段名不能重名
- 一个字段只能有一种数据类型
3.3.2、所有字段记录行数相同
- 方形结构,记录行数相同
- 存在空值
- 要根据数据类型以及生成信息重要程度的不同,使用不同方法处理缺失值
- 文本型字段
- 影响不大:可以选择不处理,或者也可以用其他没有实际业务含义的文本字符对缺失值进行替换
- 影响大:与业务人员进行确认后替换,或者与业务人员核实后删除
- 数值型字段:综合考虑该数值型字段所代表的度量意义以及针对该数值型字段进行汇总计算的方式来最终决定对缺失值的具体处理方法
- 文本型字段
3.3.3、一个表有且只有一个主键
3.3.3.1、主键的物理意义:
- 单字段主键:由一个字段构成的主键;
- 多字段联合主键:由多个字段构成的主键;
- 主键非空不重复;
- 主键用以定位记录行、字段名+主键值定位具体数值;
- 主键多以“xxID”、“xxNo”、“xx编号”等名称命名。
3.3.3.2、主键的业务意义
表的业务记录单位。在一个数据表中的所有非主键字段都要围绕主键展开。
3.3.3.3、 确定主键的方法
- 如果直接对数据库中的数据表进行操作,可以通过SQL语句确认数据表的主键字段
- 如果间接在其他数据分析平台使用表结果数据(数据源是数据库中的数据表,使用时讲数据源数据导入到其他平台使用),可以找原数据库中数据表的设计者咨询主键信息,或者直接查看数据表设计者留下的设计资料来对主键字段进行确认
- 通过对数据表的业务意义进行分析,推测主键字段后,再用物理手段确认推测的主键字段中的记录值是否能够满足”非空“、”不重复“的要求来对主键字段进行确认
3.4、表结构数据与表格结构数据特征差异
- 基本单位不同
- 行号和列号不同
- 类型范围不同
4、表结构数据获取、加工与使用(占比5%)
4.1、表结构数据获取渠道及方法
与表格结构数据的获取渠道一样。
- 从企业后台数据库系统获取;
- 前端操作平台获取数据;
- 从企业外部渠道获取数据。
4.1.1、关系型数据库管理系统(Relational Database Management System:RDBMS)
4.1.2、商业智能系统-BI(Business Intelligence)
4.1.3、数据仓库-DW(Data Warehouse)
4.2、表结构数据连接逻辑
4.2.1、横向合并
将不同表中的字段信息合并到同一个表中使用。
E-R图示例:
4.2.2、纵向合并
多表中记录信息合并到同一个表中使用的合并方式成为纵向合并。可以使用**全连接(full join)、去重合并(union)或全合并(union all)**来进行表结构数据的纵向合并。
4.3、表结构数据汇总逻辑
即数据透视表,数据透视即对零散数据进行汇总分析。
- 维度的理解就是业务的观测角度,是汇总度量的分组依据。维度能够筛选度量,度量被维度筛选。维度用来描述业务不同侧面。
- 度量的理解就是业务行为结果,用来描述业务结果程度。
- 汇总计算规则是衡量业务行为结果好坏程度的测量仪。
- 汇总结果由维度、度量、汇总规则决定。
4.4、ETL的作用、特征
将数据从数据源端经过抽取(Extract)、清洗转换(Transform)之后加载(Load)到数据仓库。将抽取出来的数据经过清洗与转换后加载到数据仓库中进行存储与使用。
4.5、应用E-R图
E-R图也称实体-联系图(Entity Relationship Diagram),提供了表示实体类型、属性和联系的方法,用来描述现实世界的概念模型。表与表的关系有:一对一,一对多,多对多。1代表1表,*代表多表。
4.5.1、扩展知识(非重点)
数据来源:百度百科
4.5.1.1、E-R图构图要素
构成E-R图的3个基本要素是实体型、属性和联系,其表示方法为:
- 实体:一般认为,客观上可以相互区分的事物就是实体,实体可以是具体的人和物,也可以是抽象的概念与联系。关键在于一个实体能与另一个实体相区别,具有相同属性的实体具有相同的特征和性质。用实体名及其属性名集合来抽象和刻画同类实体。在E-R图中用矩形表示,矩形框内写明实体名;比如学生张三、学生李四都是实体。如果是弱实体的话,在矩形外面再套实线矩形。
- 属性:实体所具有的某一特性,一个实体可由若干个属性来刻画。属性不能脱离实体,属性是相对实体而言的。在E-R图中用椭圆形表示,并用无向边将其与相应的实体连接起来;比如学生的姓名、学号、性别、都是属性。如果是多值属性的话,在椭圆形外面再套实线椭圆。如果是派生属性则用虚线椭圆表示。
- 联系:联系也称关系,信息世界中反映实体内部或实体之间的关联。实体内部的联系通常是指组成实体的各属性之间的联系;实体之间的联系通常是指不同实体集之间的联系。在E-R图中用菱形表示,菱形框内写明联系名,并用无向边分别与有关实体连接起来,同时在无向边旁标上联系的类型(1 : 1,1 : n或m : n)。比如老师给学生授课存在授课关系,学生选课存在选课关系。如果是弱实体的联系则在菱形外面再套菱形。
4.5.1.2、E-R图的成分
在ER图中有如下四个成分:
- 矩形框:表示实体,在框中记入实体名。
- 菱形框:表示联系,在框中记入联系名。
- 椭圆形框:表示实体或联系的属性,将属性名记入框中。对于主属性名,则在其名称下划一下划线。
- 连线:实体与属性之间;实体与联系之间;联系与属性之间用直线相连,并在直线上标注联系的类型。(对于一对一联系,要在两个实体连线方向各写1; 对于一对多联系,要在一的一方写1,多的一方写N;对于多对多关系,则要在两个实体连线方向各写N,M。)
4.5.1.3、作图步骤
(1)确定所有的实体集合;
(2)选择实体集应包含的属性;
(3)确定实体集之间的联系;
(4)确定实体集的关键字,用下划线在属性上表明关键字的属性组合;
(5)确定联系的类型,在用线将表示联系的菱形框联系到实体集时,在线旁注明是1或n(多)来表示联系的类型。
4.6、计算两表连接汇总值
- 合计规则:将相同维度值下对应的多个度量值相加在一起、一般用SUM函数代表合计规则。
- 计数规则:对相同纬度值下的度量个数进行计数、COUNT非空计数、DISTINCTCOUNT去重计数。
- 平均规则:用合计规则的结果除以计数规则的结果(平均=合计/计数)、一般用AVERAGE函数表示。
- 最大值规则:求相同维度之下最大的度量值、一般用MAX函数表示。
- 最小值规则:求相同维度之下最小的度量值、一般用MIN函数表示。