2.1 我们使用的数据分为两类:结构化数据和非结构化数据。
- 非结构化,指数据结构不规范、不完整、格式多样、难以理解、难以进行标准化处理的数据。
- 结构化,顾名思义是数据结构规范、完整的数据,主要生产于企业的业务系统及客户端应用程序,如CRM 系统、ERP 系统、电商app 等。由业务系统或客户端应用程序生成的结构化数据会被完整、及时、准确地记录在企业的数据库中。
对于结构化数据的分析,一般应用电子表格、数据库操作语言、ETL工具及可视化工具
结构化数据分为两类,表格结构数据和表结构数据。表格结构数据是指通过WPS表格、Excel 等电子表格工具进行数据分析时,以单元格作为数据加工、处理、分析的基本单位的结构化数据。
表结构数据是指在通过数据库或ETL工具进行数据分析时,以字段作为数据加工、处理、分析的基本单位的结构化数据。
表格结构数据:进行识别、引用、计算的基本单位为单元格。单元格集合=单元格区域。单元格区域的集合=工作表。工作表集合=工作簿。一个工作簿为一个独立的电子表格文件。
工作簿-工作表-单元格区域-单元格,由此形成4个层级区域。
计算机识别及计算数据是参照数据类型进行的,不同数据类型的数据对应不同长度的内存空间。在表格结构数据中,主要数据类型包括数值型、文本型和逻辑型3类。
数值型:整数值、小数值,主要用来进行数学计算,例如,-1、0、100属于整数值,而0.5、-9.67属于小数值。
文本值:包含文字、符号、数字等信息,主要用来对文本内容进行描述,一个文本值称为1个单一字符(例如:a,1),由若干单一字符连接串成的字符数称为字符串(a1b)。
逻辑值:只包括真值和假值。true 或 false。用于进行逻辑判断。
2.2 表格结构数据的获取、引用与使用
考虑到大量由业务系统产生的结构化数据被如实完整地记录在后台数据库系统中,系统会将一个完整的业务流程中各个不同维度的数据信息记录在多个不同的数据表中,方便数据归类存储和查询。但因为不同公司的不同维度数据都被记录,所以不利于数据获取和分析。因此,需要掌握数据库查询权限,SQL查询语句,对数据的记录逻辑清楚。
表格结构数据的三个来源包括企业的后台数据系统,企业前端操作平台,还有企业外部渠道。
前段操作平台,很多企业的业务系统在前端有自己的数据输出功能,功能会按照业务需求自动将数据库中的数据进行收集、整理,并最终以电子表格工具支持的数据文件形式输出给分析人员使用,分析人员只需要知道如何进行导出功能的操作就可以快速获得所需要的数据内容,高效且方便,但前端系统只能导出提前设定好的数据内容,如果分析人员所需要的数据内容是设定逻辑之外的数据,还要请数据库管理人员帮忙提供,提前获得查询权限的管理人员也可以通过SQL进行数据获取。数据库的各种操作权限都要数据库管理人员开通,在大公司一般都需要走严格的申请审批流程。
企业外部渠道方面,如a公司是一家服务器硬件设备制造商,为了能够快速打开市场,A公司的服务器产品主要通过多加代理商进行销售,在这种情况下,A公司销售业绩通过代理商间接创造,如果a公司的分析人员想要对销售情况进行详细分析,大量销售数据西药各家代理商分别提供,代理商一般以电子表格工具支持的数据文件形式向A公司的分析人员提供数据,是从企业外部渠道获取数据的一种常见情况。除此之外,为了分析目的需要,有时我们还会从网络或其他渠道获取一些数据信息,由于不是自己企业内部产生的标准数据,所以来自外部渠道的数据准确性和完整性上会有所不足,需要分析人员更加小心谨慎地使用。
常见电子表格数据文件有两种形式:文本文件和电子表格工具文件。
文本文件:是以文本字符构成的文件,.csv/.txt
电子表格工具文件:*.et/*.xlsx/*.numbers
表格结构数据的引用方法:先定位到该单元格上,通过列、行号定位,
表格结构数据查询:ctrl+F 或 vlookup 此部分已掌握不赘述