机器学习之（八）统计学基本知识

最新推荐文章于 2025-01-06 09:52:39 发布

等待破茧

最新推荐文章于 2025-01-06 09:52:39 发布

阅读量6k

点赞数 4

分类专栏：机器学习文章标签：机器学习

机器学习专栏收录该内容

29 篇文章

订阅专栏

本文主要介绍：统计学基本概念、数据的收集、数据的描述、回归和分类、多元分析，其中回归和分类、多元分析是学习重点。统计学中的其它概念如：概率及分布、参数估计、假设检验属于经典统计的内容，在此文略去，时间序列分析及指数是金融方面的应用，也一并略去，如有需要请查阅相关书籍。

参考书籍：

贾俊平.《统计学》.第六版

王喜之.《统计学：从数据到结论》.第四版

1.统计学基本概念

统计学：收集、处理、分析、解释数据并从中得出结论的科学。

数据分析的方法可分为描述统计和推断统计。

注意：分类变量如“行业”，其变量值可以为“零售业”、“旅游业”、“汽车制造业”；顺序变量如“产品等级”，其变量值可以位“一等品”、“二等品”、“次品”。分类变量与顺序变量均可称为定性变量、属性变量。

2.数据的收集

注意：在抽查中可根据具体项目采取概率抽样和非概率抽样相结合的方式，收集数据也可以采用自填、电访、面访相结合的方式以节省成本。在间接来源中，注意对二手数据评估，可以考虑：数据是谁收集的？为什么目的收集的？数据怎么收集的？什么时候收集的？避免对二手数据的错用、误用、滥用。

3.数据的描述

3.1数据的概括性度量

注意：在excel 数据---“数据分析---描述统计中能得到所有指标值。

3.2数据的图表展示

说明：不同的箱线图对应的分布如下

注意事项：图表应简洁、合理的表达统计目的，不应在图形的修饰上花费太多时间。在绘制图形时，应避免一切不必要的装饰，注重图形所要表达的信息，图形产生的视觉效果应与数据所体现的事物特征一致，不得歪曲数据。

统计表是用于展示数据的另一个基本工具，一般由表头、行标题、列标题和数字资料组成，必要时在统计表的下方添加数据来源、变量注释和说明等。统计表的横竖比例要适当，避免出现过高或过宽的情况；表头标题应满足3W原则（when、where、what），统计表中应注明单位，表的上下两条线一般用粗线，中间的其它线用细线；通常情况下，统计表左右两边不封口，列标题之间在必要时可用竖线分开，而行标题通常不必用横线分开；表中数据一般是右对齐，有小数点时小数点对齐，小数点位数统一，对于没有数字的单元，一般用“—”表示，表中不应出现空白单元格。

4.回归与分类

4.1回归：数值型变量(因)——数值型变量(自)

	拟合优度指标	检验方法	是否需要假设分布背景	准确度排名
线性回归	判定系数 R²	F统计量、t统计量	是	4
决策树	判定系数 R²	交叉验证	否	5
boosting	判定系数 R²	交叉验证	否	2
随机森林	判定系数 R²	交叉验证	否	1
支持向量机	判定系数 R²	交叉验证	否	3

线性回归属于经典统计学，模型能够写成公式，而其它几种方式属于现代方法，模型体现在算法之中，这些方法广泛应用于机器学习或数据挖掘之中。算法模型适用范围比经典的统计模型根据广泛。在处理巨大的数据集上，在无法假定任何分布背景的情况下，在面对众多竞争模型，算法模型较经典模型有着不可比拟的优越性。

4.2分类：分类变量(因)——数值型变量(自)

	拟合优度指标	检验方法	是否需要假设分布背景	准确度排名
Logistic回归			是	因变量只能为2个变量
线性判别分析(Fisher判别法)	错分比例	交叉验证	否	4
决策树	错分比例	交叉验证	否	5
boosting	错分比例	交叉验证	否	3
随机森林	错分比例	交叉验证	否	1
支持向量机	错分比例	交叉验证	否	2

说明：Logistic回归、线性判别分析(Fisher判别法)均属于经典统计的内容。支持向量机是基于数学模型但充分结合了计算机的算法。

4.3分类：分类变量(因)——分类变量(自)

	拟合优度指标	检验方法	是否需要假设分布背景	准确度排名
决策树	错分比例	交叉验证	否	2
boosting	错分比例	交叉验证	否	1
随机森林	错分比例	交叉验证	否	1