CDA Level1知识点总结之数据结构

策略分析

PART 2 数据结构(占比15%)
a. 表格结构数据特征(占比2%)
b. 表格结构数据获取、引用、查询与计算(占比3%)
c. 表结构数据特征(占比5%)
d. 表结构数据获取、加工与使用(占比5%)

这一章节重要在于理解表格结构和表结构的特征和区别,主键

考点总结

数据类别:结构化数据(企业系统可触达的业务范围内,数据信息完整规范、搜索调用方便、易于理解)与非结构化数据

结构化数据:表格结构(以单元格值作为数据的引用、操作及计算的基本单位)和表结构(以字段或记录作为数据的引用、操作及计算的基本单位)

表格结构数据特征

1.表格结构数据层级:
1.1 父级包含多个子级对象 and 子级对象只能属于某个特定的父级对象
1.2 工作簿→工作表→单元格区域→单元格
2.表格结构对应的电子表格工具:Excel、WPS、Numbers
3.表格结构数据类型:数值型、文本型、逻辑型
4.单元格的格式属性:数字格式决定显示形式、显示格式决定显示效果(文本默认偏左,数值默认偏右)

表格结构数据获取、引用、查询与计算

1.数据获取3种方式:企业后台数据库系统、前端操作平台、企业外部渠道(csv、xlsx、txt、et)
2.数据引用
单元格值的引用
=A1
=Sheet1!A1
单元格区域值的引用
单元格区域需要有连续的单元格构成,单元格区域需要是一个方形区域
=A1:C3
=Sheet1!A1:C5
引用多列=A:D
引用多行=1:5
3.数据查询
使用表格工具搜索功能
使用查询函数
EXCEL常用函数:
日期函数:
EDATE(2021/5/23,1)表示指定日期的下一个月的日期
EOMONTH(2021/5/23,0)表示当月最后一天的日期

表结构数据特征5%

表结构数据
维度字段–文本型、度量字段–数值型
维度表(只包含维度信息)、事实表(包含维度信息+度量信息)
特征:

  1. 特征1
    第一行为标题行,第一行放的是字段名
    第二行及以后为记录
    字段名不能重名
    一个字段只能有一种数据类型
  2. 特征2
    所有字段记录的行数相同
    方形结构
    可能存在空值(null)
    处理缺失值
    文本型:影响不大的,可以不处理或用无意义的字符替换;影响大的,与业务人员核实后替换或删除。
    数值型:根据度量意义以及汇总计算方式决定处理方法。
  3. 特征3
    一个表中有且只有一个主键
    主键的物理意义
    单字段主键&多字段联合主键
    非空不重复
    定位记录行、字段名+主键值定位具体数值(类似表格结构的行名、列名)
    主键的业务意义
    表的业务记录单位,数据表中的非主键字段都要围绕主键展开,具备相关性。
    确定主键的方法
    1.对于数据库中的数据表,通过SQL语句确认主键字段
    2.对于间接从其他数据分析平台得到的数据,可以找数据表的设计者咨询,或查看设计资料
    3.业务意义出发,能否满足非空和不重复

表结构数据获取、加工与使用

数据获取
  1. 表格数据与表数据的对比
    在这里插入图片描述
    应用表格结构数据&引用表结构数据(时效性、使用方式的不同)
    表格结构数据–使用从源数据导出的数据,实时性不能保证。
    表结构数据–直接连到源数据、引用源数据,自动同步,实时性好。

  2. 关系型数据库管理系统–企业业务数据的存储、检索、访问与共享。多层级结构、OLTP联机事务处理、可量化、结构化数据、提供大部分数据源、不善于分析。

  3. BI商业智能系统–为企业决策者提供完整、准确、深入的数据分析结果,帮助实现商业洞察。强于分析、多功能模块构成、两种主要类型、多维数据集、所见即所得。

  4. ETL功能:Extract-Transform-Load,将数据从数据源端经过提取、清洗转换之后加载到数据仓库。
    E:创建于数据源的连接,对数据进行引用
    T:
    清洗–筛选过滤不完整、错误及重复的数据记录,
    转换–‘粒度’不一致、业务规则不一致
    L:加载到数据仓库中存储和使用

  5. DW数据仓库–用来存储分析所需的数据源上的所有相关数据信息。
    在这里插入图片描述

  6. OLAP(OnLine Analysis Processing联网分析处理 )–连接信息孤岛、创建多维数据模型。<第5章专门讲,重难点重难点>
    在这里插入图片描述

数据使用

合并横向合并–字段合并,纵向合并–记录合并
横向:通过公共字段匹配(公共字段名称不要求完全相同),左表与右表,连接方向(主附关系,左连接、右连接、内连接),对应关系(结果行数=对应项乘积的结果),E-R图(多表连接的鸟瞰图)
纵向:记录信息合并,要求字段个数相同,相同位置字段的数据类型相同,去重合并与全合并
汇总维度筛选度量
1.维度–业务观测角度(分组依据)
2.度量–业务行为结果
3.汇总计算规则–衡量业务行为结果好坏程度的测量仪(聚合规则–合计、计数、平均、最大值、最小值)
数据分析的业务意义
数据分析是连接零散数据与人类认知间的桥梁,通过数据透视分析、数据挖掘分析将数据中的信息和密码传达给人类,提高人类对业务的认知和理解水平。

习题整理(易错题、难题)

1.(模)表格结构数据是应用与电子表格工具上的数据,作为表格结构数据数据源描述错误的是
• A.主要来自数据库
• B.全部来自数据库
• C.部分来自数据文件
• D.部分来自数据仓库
答:B。无论是表格结构还是表结构,数据源有:数据仓库、数据库、数据文件(csv/txt/xlsx/et)、网页数据及其他来源。

2.(模)在电子表格工具中可以使用公式引用数据,下面哪个引用公式写法是错误的()?
• A.A:A
• B.B1:C17
• C.1:19
• D.A4:19
答:D不合规范,不能从单元格地址到行号。行号为数字,列号为字母。

3.(模)主键是表结构数据中重要概念之一,针对主键描述错误的是
• A.一个表只能有一个主键
• B.主键中不能有null值
• C.主键只能是一个字段
• D.主键中不能有重复值
答:C。表结构中可能包含有多个字段构成的多字段联合主键。

4.(模)横向合并多表信息完善数据源内容是利用表结构数据的重要方法之一,在横向合并两个数据表时的对应关系决定合并结果的什么
• A.主附关系
• B.合并结果行数
• C.合并结果数据范围
• D.合并结果数据类型
答:B.表的合并行数是对应项乘积的结果。
本题令我纠结的点在于数据表的对应关系与合并结果有什么关系呢?我只要知道表1和表2各有多少个字段,然后字段数相乘不就好了吗?

5.(模)理解主键的业务意义是使用表结构数据进行分析的前提,主键的业务意义指的是
• A.表的业务记录单位
• B.表的行识别符
• C.表中非主键字段的计算对象
• D.表的业务逻辑
答:A . B是主键的物理意义,C与D是错误描述,所以A是主键业务意义,是正确答案

6…横向合并两表时不太可能遇到的连接关系是
• A.一对一
• B.一对多
• C.多对多
• D.多对一
答:A。一对一指的是两表具有相同主键,在数据库中基本不会出现这种情况。

  • 8
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

狐狸的帽子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值