表结构数据
除电子表格工具主要使用表格结构数据以外,其余的绝大多数数据分析工具都是使用表结构数据进行分析的。理解表结构数据的特性,学会表结构数据的获取、处理、分析方法是做好数据分析工作的必要条件。
表结构数据特征
(1)表结构数据中的基本引用、操作、计算单位是字段或记录行。字段指表中一整列数据,记录行指表中一整行的数据。
(2)表中所有字段的记录行数相同。若某处没有明确的数据记录则为null,称为空值或缺失值。若出现Null,可能需要删除记录行、替换空值为有效值等方法来减少或回避空值对数据分析结果造成的影响。
(3)几乎所有数据表中都存在且只存在一个主键。
表结构数据的获取、加工与使用
应用与引用体现了电子表格工具和表结构数据在使用数据源数据的方式上有着本质差别。
数据库与商业智能
数据库:一般指关系型数据库。主要任务为企业数据的存储、检索、访问与共享。不擅长对海量数据进行计算分析,无法共享分析结果。
商业智能系统:ETL功能、数据仓库功能、OLAP功能、数据可视化功能构成。
ETL
Extract, Transform, Load即“抽取、转换、加载”,是数据库领域用于描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
1、抽取(Extract):从源系统中读取数据。数据源可以是关系数据库、数据仓库、平面文件、XML文件、电子表格,甚至其他类型的数据库系统等。数据抽取过程会涉及到访问和连接数据源、执行查询以及从数据源中检索数据等操作。
2、转换(Transform):对抽取出来的数据进行处理,使其满足数据仓库的要求。数据转换可能包括数据清洗(例如去除重复数据、处理缺失值、纠正错误数据等)、数据映射(例如将数据源中的字段映射到数据仓库中的相应字段)、数据聚合(例如计算总和、平均值等统计信息)和数据格式化(例如将数据转换为统一的格式)等操作。
3、加载(Load):将转换后的数据加载到数据仓库中。数据加载过程可能包括将数据插入到数据仓库的表中、更新现有数据以及创建索引等操作。加载过程的目标是确保数据能够高效地存储和访问,以便后续的数据分析和决策支持任务。
ETL过程对于数据仓库的成功至关重要,因为它确保了数据的准确性、一致性和完整性。通过ETL过程,企业可以从多个数据源中整合数据,为业务分析提供统一、可靠的数据基础。
OLAP
Online Analytical Processing即联机分析处理技术,是一种专门设计用于支持复杂的分析操作,特别是针对大型数据集的快速、交互式查询的数据库技术。与OLTP(Online Transaction Processing,联机事务处理)主要用于事务性数据处理不同,OLAP专注于决策支持和数据分析。
OLAP的主要特点包括:
1、快速响应:OLAP系统需要能够迅速响应用户的查询和分析请求,即使面对大量数据也能保持高性能。
多维数据分析:OLAP允许用户从多个角度(维度)对数据进行深入分析。例如,在销售数据分析中,可以按照时间、地区、产品线等多个维度进行查看和分析。
2、复杂查询和报表生成:OLAP支持复杂的查询和报表生成,这些查询通常涉及大量的数据聚合和计算。
3、用户交互性:OLAP系统通常提供交互式界面,使用户能够轻松浏览和分析数据,探索数据的不同方面和趋势。
4、数据读取优化:与OLTP系统注重数据写入和更新不同,OLAP系统更侧重于数据读取性能的优化,以确保快速响应查询请求。
5、数据仓库集成:OLAP系统通常与数据仓库紧密集成,数据仓库是存储大量历史数据和集成数据的集中式数据库,用于支持分析操作。
OLAP的实现方式有多种,包括基于关系数据库的ROLAP(Relational OLAP)、基于多维数据结构的MOLAP(Multidimensional OLAP)以及混合了ROLAP和MOLAP特性的HOLAP(Hybrid OLAP)等。这些实现方式各有优缺点,选择哪种方式取决于具体的应用场景和需求。