第一章、概述
数据分析:用适当的分析方法和挖掘方法对收集来的数据进行研究,提取有用的信息,形成结论并支持决策的过程。
数据分析方法分类:业务描述性分析方法 和 数据挖掘分析方法。业务描述性分析步骤:业务理解、数据采集、数据清洗、数据探索、数据可视化、数据建模、模型结果可视化、分析结果。数据挖掘是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大的数据集中发现信息的计算过程,步骤是:业务理解、数据理解、数据准备、建模、模型评估、模型发布。
数据分析在企业中可分为宏观分析和微观分析。前者站在企业运营和经营的视角为决策层和管理层提供数据支持,后者站在客户视角进行客户洞察、挖掘客户需求和匹配产品服务落地对应的策略。
数据分析的落地方法:EDIT。探索(Exploration)、诊断(Diagosis)、指导(Instruction)、工具(Tool)。
第二章、表格机构数据与表结构数据
平常使用的数据分类:结构化数据 和 非结构化数据。结构化数据指结构规范、完整的数据,产生于企业的CRM、ERP、App等系统,如交易记录、财务数据、产品信息、库存信息等。非结构化数据是指数据结构不完整、不规范、格式多样、难以理解、难以进行标准化处理的数据。产生于企业系统外,如短息、邮件、音频、视频、设备监控数据等。
表格结构:
1.结构化数据分为表结构数据 和 表格结构数据。表结构数据的基本单位是单元格,主要有WPS表格、Excel、Numbers等。表结构的基本单位是字段,主要有数据库、ETL工具等。
2.表格结构有4个不同的层级机构,从大到小分别是:工作簿、工作表、单元格区域、单元格,依次是包含关系。
3.在表结构中可以为不同单元格设置不同数据类型,但一次只能为一个单元格设置一种类型。表格结构数据的数据类型可分为数值型、文本型、逻辑型。一般文本居左,数据居右。逻辑值分为true和false。一个单元格不仅具备数据类型的属性,还具备单元格格式的属性。
4.表格数据的3个主要来源:企业的后台数据库系统、企业的前端操作平台、企业的外部渠道。
5.表格的函数运算:数学函数、日期函数、文本函数、统计函数、逻辑函数、查找与引用函数
表结构:
1.表结构的主要来源是数据库中的数据表,表中所有字段的记录行数相同,
2.null值:称为空值或缺失值。一般来源于前端的非必填项,如果字段对分析结果影响不大可以不处理,也可以用其他值替换。如果不处理,会对汇总类数值产生影响。
3.主键:几乎所有数据表都存在且只存在一个主键。主键的物理意义是必须满足非空、不重复,主键可以是一个字段,也可以是多个字段。主键的业务意义是一个表的业务记录单位。有三种方法识别主键:通过SQL语句识别、找原数据表的设计者咨询、对数据表的业务意义进行分析。
第三章、数据库应用
1.数据库是存储、调用、分析数据的仓库,主要分为关系型数据库(MySQL、Oracle、SQL Server)和非关系型数据库(MongoDB、Redis、Hbase)。数据仓库是面向主题的、集成的、稳定的、反应历史变化的数据集合。至少分为三个层级:ODS、DSA、EDW。数据库和数据仓库的区别是OTAP和OLAP区别。
2.数据库语言可以分为:数据定义语言(DDL)、数据操作语言(DML)、数据查询语言(DQL)、数据控制语言(DCL)
3.DDL:创建数据库、查看数据库、选择数据库、删除数据库,创建表、查看表、删除表、修改表,数据类型,约束条件(主键、非空、唯一、自增长、默认值)
4.DML: 插入数据、更新数据、删除数据
5.DQL:
select {*/字段列表/表达式/公式/常量}
from 表名1
where 查询条件
group by 分组字段
having 分组过滤条件
order by 排序字段
limit 限制条数
重点:连接方式区别(left join/right join/inner join/full join)
betwen and,开窗函数,子查询
6.视图:创建、删除、修改
第四章、描述性统计分析
数据分析的四个步骤:收集数据、处理数据、分析数据、解释数据
基础数据分析方法分为两种:描述性统计分析方法 和 推断性统计分析方法
描述性统计分析方法分为:集中趋势的描述、离散趋势的描述、分布形态的描述
集中趋势的描述:
1.分类数据:众数
2.顺序数据:二分位数、四分位数
3.数值类数据:平方平均数、算数平均数、几何平均数、调和平均数
离散趋势的描述:
1.分类数据:异众比例
2.顺序数据:极差、四分位差
3.数值类数据:平均差、方差、标准差、离散系数
分布形态的描述:
1.偏态:数据分布的偏斜程度。SK = (平均数-众数)/标准差,偏态的性质
2.峰态:描述数据分布的尖峰扁平程度。
描述性统计报表和统计图:
饼图:展示各类数据在总数据的占比,分类、顺序、数值数据均可使用。
条形图:将数据各类别的频数或频率画出条形,横轴表示类别。分类、顺序、数值数据均可使用。
直方图:是数值数据的图,横轴为数轴,需要按顺序排列,且数据要求连续、无间隔。而条形图如果是分类数据,则是类别数据,无固定顺序。
箱线图(盒须图):由一个箱子、两条线组成。由最大值、最小值、上四分位数、下四分位数、中位数组成。常用于股票的K线。
线图:用于描述时间序列数据的常用图。通过线图的值变化观察变量的情况。
散点图:常用于描述变量间的相关关系。横轴是一个变量,纵轴是一个变量,散点图不能连线。
常用的数据分布:两点分布、二项分布、正态分布、卡方分布、t分布、F分布。
两点分布:X ~ B(1, p)。只有2个结果的随机事件服从的分布。如抛硬币的结果、下不下雨。期望是p, 方差是p(1-p)
二项分布:X ~ B(n, p)。是指多次两点分布实验,结果服从二项分布。期望是np,方差是np(1-p)
正态分布:X ~ N(μ, σ^2)。是一个期望是μ, 方差是σ^2的概率分布,中位数和众数都是μ,μ决定曲线最高点的位置,方差σ^2决定曲线的平缓程度。3σ原则:P(μ-σ<= x <= μ+σ) = 0.6826, P(μ-2σ<= x <= μ+2σ) = 0.9544,P(μ-3σ<= x <= μ+3σ) = 0.9974。非标准正态分布可以转为标准正态分布:Z = ( X-μ ) / σ
卡方分布:Y ~ x^2(n)。卡方分可以通过标准正态分布的平方和来定义
t分布:可以通过标准正态分布和卡方分布来定义。
F分布:通过卡方分布来定义。
相关分析:函数关系、相关关系、没有关系。从极限角度看,函数关系是强相关关系的极限。线性相关关系可以用Pearson相关系数、Spearman相关系数描述。