1、数据分类:结构化数据,如交易记录、购物记录,打卡记录;非结构化数据,如图片,视频,音频等。
2、表格结构数据层级:单元格---单元格区域---工作表----工作簿
3、表格结构数据的数据类型:
3.1、数值型:包括整数、浮点数、百分数等,主要用于数学计算。
3.2、文本型:主要包括文字、符号、数字等,主要用于描述
3.3、逻辑型:只有两个值,真(true或1)和假(false或0),仅用于逻辑判断
4、表格结构数据的获取方法:从企业后台数据库系统获取;前端操作平台获取数据;企业外部渠道获取数据。
5、表结构的基本单位:字段:整列数;记录:整行数;维度:业务角度;度量:业务行为结果;维度字段:文本型;度量字段:数值型
6、事实表及维度表:维度表:只包含维度信息的表;事实表:既包含维度信息又包含度量信息的表。(简单区分方式:事实表中,会包含数值型的字段,最典型的是各类金额;维度表中,只包含对象的属性信息,仅有文本型字段)
7、表结构数据特征:
7.1、第一行为标题行;第二行以后称为记录;字段名不能重名;一个字段只能有一种数据类型;
7.2、所有字段记录行数相同(允许空值填充);
7.2.1、处理缺失值:根据数据类型以及生成信息重要程度不同,使用不同方法处理缺失值。 ① 文本型字段:影响不大:以选择不进行处理,或者也可以用其他没有实际业务含义的文本字符对缺失值进行替换;影响大:招业务人员进行确认后替换,或者与业务人员核实后删除。 ②数值型字段:综合考虑该数值型字段所代表的度量意义以及针对该数值型字段进行汇总计算的方式来最终决定对确实值的具体处理方法。
7.3、一个表中有且仅有一个主键(范式规范,关系型数据库中的概念)
7.3.1、物理意义:单字段主键:由一个字段构成的主键;多字段联合主键:由多个字段构成的主键;每条记录要求主键非空不重复;定位记录行:字段名+主键值定位具体数值;多以“xxID”、“xxNo”、“xx编号”等名称命名。
7.3.2、业务意义:表的业务记录单位。在一个数据表中的所有非主键字段都要围绕主键展开
7.4、关系型数据库管理系统:该系统主要任务是企业业务数据的存储、检索、访问与共享
特点:多层次结构:RDBMS-----DB-----Table;OLTP(事务处理系统);存储可量化、结构化数据;提供大部分数据源;不善于分析
7.5、商业智能系统---BI:用于为企业决策者快速提供完整、准确、深入的数据分析结果,帮助企业决策者实现商业洞察。
特点:强于分析;多功能模块构成;两种主要类型;多维数据集;所见即所得。
7.6、ETL功能:将数据从数据源端经过抽取(Extract)、清洗转换(Transform)、之后加载(Load)到数据仓库。其目的是将分析所需要的企业内外部凌乱、标准不统一、没有质量保证的数据整合到一起,为分析决策提供完整高质量的数据信息。
E-抽取:创建与不同数据源的连接关系,对这些数据源中的数据进行“引用”;
T-清洗转换:清洗的主要任务是筛选过滤不完整、错误及重复的数据记录;
对“粒度”不一致的数据进行转换
对业务规则不一致的数据进行转换
L-加载:将抽取出来的数据经过清洗与转换后加载到数据仓库中进行存储与使用
7.7、数据仓库--DW:用来存储分析所需要的不同数据源上的所有相关数据信息。
①:(DB、网页信息、CSV/TXT数据文件、其他数据源)----->ETL工具实现ETL功能
----->DW工具实现数据源数据的引用和调用功能
②:(DB、网页信息、CSV/TXT数据文件、其他数据源)----->兼具ETL功能的DW功能的工具(最典型的就是:PowerQuery)
7.8、OLAP:连接信息孤岛、创建多维数据模型
7.9、表结构数据的合并方法:
7.9.1、横向合并:将不同表中的字段信息合并到同一个表中;
1、通过公共字段匹配(拥有相同记录值得字段);2、左表与右表(连接命令左侧的表为左表,反之为右表);3、连接方向(决定了表的主附关系,左连接则左表为主;右连接则右表为主;内连接不分主附);4、对应关系(决定连接结果行数是对应项乘积的结果);5、E-R图(多表连接的鸟瞰图,即实体关系图)
7.9.2、纵向合并:将不同表中的记录合并到同一个表中。
1、字段个数相同;2、相同位置字段的数据类型相同;3、去重合并与全合并
7.10、表结构数据的汇总
7.10.1、数据透视:对零散数据进行汇总分析。步骤:1、创建数据透视表模板;2、选择维度字段拖入适当的位置;3、选择度量的字段拖入到适当的位置;4、建立维度和度量之间的汇总规则
汇总规则主要包括:①合计规则:将相同维度值下的多个度量值加在一起,即SUM;
②计数规则:将相同维度下的度量个数进行计数,即COUNT;
③平均规则:用合计规则的结果除以计数规则的结果,即AVERAGE
④最大值规则:求相同维度之下最大的度量值,即MAX
⑤最小值规则:求相同维度之下最小的度量值,即MIN
7.10.2、数据透视的业务意义:数据分析的意义是连接现实世界零散数据与人类认知之间的桥梁