五、统计学

日常敲代码

已于 2022-04-22 14:25:50 修改

阅读量951

点赞数 1

分类专栏：机器学习实战文章标签： python 机器学习

于 2022-04-21 16:29:40 首次发布

本文链接：https://blog.csdn.net/weixin_43344103/article/details/122135180

版权

机器学习实战专栏收录该内容

10 篇文章 1 订阅

订阅专栏

参数估计与模型调优

1.1模型概要

在这里插入图片描述

★ 统计学 ≠ 统计学习；统计学习 = 机器学习

统计学和机器学习共用的算法：线性回归、逻辑回归、极大似然估计
机器学习算法：决策树、神经网络等，其核心是极大似然估计法。

机器学习是一个工程，更关心计算的可行性和效率；
统计学更多的处理小数据，更关心方法的严谨性和适用性。

1.2 模型调优

统计学的模型调优：看R^2、AIC、BIC参数
统计学习的模型调优：看 accuracy、precise、specificity、recall等指标，并调节超参数
注：lasso算法、岭回归等算法，其惩罚项叫超参数

1.3 统计学习(机器学习)的模型调优

统计学中一般没有超参数，只有参数。
机器学习中为了减少人的介入，设置超参数，根据模型的目标函数选择最优的超参数。

1.3.1 机器学习各种目标函数

模型调优就是根据各种评估指标，选择最合适的超参数，没有必要过度拟合。
在这里插入图片描述

Y是连续变量：
模型评估指标的目标函数：
在这里插入图片描述
Y是二分类变量
模型评估指标的目标函数：

预测类型	统计量
决策	正确率、召回率、精确度、F1分数
排序	ROC指标(一致性)、Gini指数、K-S统计量、提升度

1.3.2 机器学习模型复杂度

偏差 - 方差权衡
在这里插入图片描述
在训练集中模型的复杂程度越高偏差越小(预测的越准)，复杂程度越高的模型在测试集中预测是不稳定的(方差越大)。
在训练集中模型越简单，偏差会增加，在测试集中预测越稳定(方差越小)。

1.3.3机器学习中模型调优的方案

在训练集中建模，在测试集中看模型的表现。
在这里插入图片描述
随着变量逐步增加，训练数据集中的误差平方和(ASE)逐渐下降,测试数据集中的ASE达到一定值后逐渐上升。能控制模型复杂度的就是超参数，如ASE。

1.3.4 Lasso

Lasso：不删除变量，但使得一些回归系数收缩、变小，甚至为0。
在这里插入图片描述

两图形的相交点是 $\beta_1 = 0,\beta_2 = 1$ ，表示在惩罚项处于当时的情况下，目标函数的最优解。

1.4 统计学的估计

在这里插入图片描述

1 统计学中有参数统计和非参数统计，参数估计用于参数统计学。

参数统计：假设某个变量服从某个分布，用随机变量的数字特征估计总体的数字特征。
参数估计类型：点估计、区间估计
点估计：估计未知参数的值
区间估计：估计未知参数的取值范围，使得这个范围包含未知参数真值的概率为给定的值。

非参数统计：认为某个参数服从某个分布是臆断的，不做假设。

2 最小二乘估计是矩估计和极大似然估计的一个特例。
3 贝叶斯估计属于贝叶斯学派的，一共有两个学派：频次统计学派和贝叶斯学派。【贝叶斯学派本专栏不涉及】

1.4.1 矩估计

矩估计：用样本直接算出阶矩
公式
$一阶矩：\hat{\mu} = \frac{1}{n}\sum_{i=1}^nX_i$
$r阶矩：B_r = \frac{1}{n}\sum_{i=1}^nX_i^r$
$二阶中心矩：\hat{\sigma^2} = \frac{1}{n}\sum_{i=1}^n(X_i - \bar{X})^2 = S_n^2$
示例
例如：X~N( $\mu$ , $\sigma^2$ )中
$\mu = E(x)$
${\sigma^2} = E(x^2)-E(x)^2$
定义
实例
做一次营销活动，营销1000人，事后统计有120人购买，其余人没有购买。用矩估计计算随机事件分布的参数。
解：
令伯努利分布的参数为营销后响应的概率§，其分布为B(1000,p)。
$\hat{p} = \bar{X} = \frac{1}{n}\sum_{i=1}^n{X_i} = f_n(A)$
$\hat{p}$ = 120/1000=0.12

1.4.2 极大似然估计

统计学和机器学习共用的算法：极大似然估计

机器学习的方法论：算法、目标函数、计算方法
1.选择算法：如y连续=》选择线性回归、回归树、神经网络等；y二分类=》选择决策树、逻辑回归、支撑向量机、朴素贝叶斯等
2.选择目标函数：逻辑回归和线性回归的目标函数可以是极大似然，还有熵、损失函数等
3.选择计算算法：牛顿迭代法、梯度下降法等

1.4.2.1 定义

在这里插入图片描述
估计的是参数，如果似然函数 $L(\theta) = L(x_i,x_2,...,x_n;\theta)$ 在 $\theta = \hat{\theta}$ 时达到最大值，则称 $\hat{\theta}$ 是参数 $\theta$ 的极大似然估计。

整个的极大似然估计是将目标函数(似然函数)对参数求导，如 $\frac{\partial{L(\theta)}}{\partial{\theta}}=0$ ，求解参数。
有几个参数就用似然函数分别对这个及参数求导。

1.4.2.2 实例-伯努利分布

伯努利分布：一种离散分布，用于表示0-1型事件发生的概率。例：P(逾期) = p,P(不逾期) = 1-p
伯努利分布的密度函数
$P(Y= y) = p^y * (1-p)^{1-y},y=1,逾期y=0不逾期。$
伯努利的似然函数

对似然函数取对数求导数得： $\hat{p} = \frac{\sum{y_i}}{n}$

1.4.2.3 极大似然估计的优缺点

优点：利用了分布函数形式，得到的估计量的精度一般较高
缺点：要知道总体的分布函数形式

1.5 机器学习

1.5.1 机器学习的极大似然估计

1.5.1.1线性回归的最小二乘法

最小二乘法：矩估计和极大似然估计的一个特例。
最小二乘法：样本点与拟合直线的竖直距离（残差）的平方和越小越好。
$\sum_{i=1}^n{e_i^2} = \sum_{i=1}^n{(y_i-\hat{\beta_0} - \hat{\beta_i}*x_i)^2}$
在这里插入图片描述
机器学习中有参数、超参数，参数是一个模型里可以变化的量，超参数用来调节找出最优模型的。
最小二乘法估计参数：

1.5.1.2线性回归的极大似然估计法

线性回归中，假设扰动项服从正态分布，模型为 $y_i = \beta*x_i + \epsilon_i$ ， $\epsilon_i$ 服从正态分布 $(0,\sigma^2)$
其中回归系数 $\beta$ 和扰动项的方差 $\sigma^2$ 为参数。

步骤一：计算似然函数 $L(\beta,\sigma^2) = f(y_1,y_2,...,y_n|{\beta,\sigma^2}) = \prod_{i=1}^{n}{f(y_i|{\beta,\sigma^2})}$ 参数为 $\beta 和 \sigma^2$
步骤二：y与扰动项是同源的，所以y也应该服从正态分布 $(\beta*x_i,\sigma^2)$ 。将其带入上式为在这里插入图片描述
步骤三：对参数取对数分别求导
取对数为 $\frac{-n}{2}ln2\pi - \frac{-n}{2}ln\sigma^2- \frac{1}{2\sigma^2}\sum_{i=1}^{n}{(y_i - \beta*x_i)^2}$
对参数求导

1.5.1.3 线性回归极大似然估计法的惩罚项

极大似然法只能计算模型结果，不能筛选最优模型，所以利用超参数进行筛选模型。

在目标函数的基础上，加入惩罚项(正则)，将无用的X筛选掉，得到最优结果。惩罚项是关于模型大小的一部分。

最终适中的惩罚是，最优的λ使得到模型精确度高且方差小。

岭回归(L2惩罚)：加平方项
Lasso回归(L1惩罚)：加绝对值

1.5.2 逻辑回归的极大似然估计

1.5.2.1 逻辑回归的极大似然估计

案例及推导

假设商家在推销iPad，每个消费者都有一个效用函数，消费者对ipad的需求受一些解释变量的影响，比如阅读的次数、玩游戏的次数等等。
步骤一：
效用函数 $y^*$ 为： $y^* = X'*\beta+\epsilon$ ;X’为解释变量, $y^*$ 被称为隐变量且未知。
y代表观测结果，即消费者是否购买iPad，设iPad价格为1000，则 $\begin{cases} 1, & \text {if $y^*$ >1000} \\ 0, & \text{if $y^*$ <=1000} \end{cases}$
步骤二：
购买iPad的客户的概率：
在这里插入图片描述
其中F(x)为扰动项的累积概率密度函数。
不购买iPad的客户的概率：
步骤三：
将两个式子带入到逻辑回归的极大似然估计，得到似然函数：
$\prod_{y=0}F(-x'\beta)\prod_{y=1}[1-F(-x'\beta)]$

逻辑回归有两种概率密度可以带进去：logist分布和正态分布；带入logist分布得到的是logist回归，带入正态分布得到的是probit回归
步骤四：
假设扰动项 $\epsilon$ 服从logist分布，则累计概率密度函数：
在这里插入图片描述
将累积概率密度函数带入到似然函数中得到逻辑回归的似然函数，对其取对数，得到对数似然函数：

求导之后没有解析解，一般使用牛顿法进行数值计算。