五、统计学

参数估计与模型调优

1.1模型概要

在这里插入图片描述

★ 统计学 ≠ 统计学习;统计学习 = 机器学习

  1. 统计学和机器学习共用的算法:线性回归、逻辑回归、极大似然估计
  2. 机器学习算法:决策树、神经网络等,其核心是极大似然估计法。

机器学习是一个工程,更关心计算的可行性和效率;
统计学更多的处理小数据,更关心方法的严谨性和适用性。

1.2 模型调优

  1. 统计学的模型调优:看R^2、AIC、BIC参数
  2. 统计学习的模型调优:看 accuracy、precise、specificity、recall等指标,并调节超参数
    :lasso算法、岭回归等算法,其惩罚项叫超参数

1.3 统计学习(机器学习)的模型调优

统计学中一般没有超参数,只有参数。
机器学习中为了减少人的介入,设置超参数,根据模型的目标函数选择最优的超参数。

1.3.1 机器学习各种目标函数

模型调优就是根据各种评估指标,选择最合适的超参数,没有必要过度拟合。
在这里插入图片描述

Y是连续变量:
模型评估指标的目标函数:
在这里插入图片描述
Y是二分类变量
模型评估指标的目标函数:

预测类型统计量
决策正确率、召回率、精确度、F1分数
排序ROC指标(一致性)、Gini指数、K-S统计量、提升度

1.3.2 机器学习模型复杂度

偏差 - 方差权衡
在这里插入图片描述
在训练集中模型的复杂程度越高偏差越小(预测的越准),复杂程度越高的模型在测试集中预测是不稳定的(方差越大)。
在训练集中模型越简单,偏差会增加,在测试集中预测越稳定(方差越小)。

1.3.3机器学习中模型调优的方案

在训练集中建模,在测试集中看模型的表现。
在这里插入图片描述
随着变量逐步增加,训练数据集中的误差平方和(ASE)逐渐下降,测试数据集中的ASE达到一定值后逐渐上升。能控制模型复杂度的就是超参数,如ASE。

1.3.4 Lasso

Lasso:不删除变量,但使得一些回归系数收缩、变小,甚至为0。
在这里插入图片描述
在这里插入图片描述
两图形的相交点是 β 1 = 0 , β 2 = 1 \beta_1 = 0,\beta_2 = 1 β1=0,β2=1,表示在惩罚项处于当时的情况下,目标函数的最优解。

1.4 统计学的估计

在这里插入图片描述

1 统计学中有参数统计和非参数统计,参数估计用于参数统计学。

  • 参数统计:假设某个变量服从某个分布,用随机变量的数字特征估计总体的数字特征。
    • 参数估计类型:点估计、区间估计
      • 点估计:估计未知参数的值
        • 区间估计:估计未知参数的取值范围,使得这个范围包含未知参数真值的概率为给定的值。
  • 非参数统计:认为某个参数服从某个分布是臆断的,不做假设。

2 最小二乘估计是矩估计和极大似然估计的一个特例。
3 贝叶斯估计属于贝叶斯学派的,一共有两个学派:频次统计学派和贝叶斯学派。【贝叶斯学派本专栏不涉及】

1.4.1 矩估计

  1. 矩估计:用样本直接算出阶矩
  2. 公式
    一 阶 矩 : μ ^ = 1 n ∑ i = 1 n X i 一阶矩:\hat{\mu} = \frac{1}{n}\sum_{i=1}^nX_i μ^=n1i=1nXi
    r 阶 矩 : B r = 1 n ∑ i = 1 n X i r r阶矩:B_r = \frac{1}{n}\sum_{i=1}^nX_i^r rBr=n1i=1nXir
    二 阶 中 心 矩 : σ 2 ^ = 1 n ∑ i = 1 n ( X i − X ˉ ) 2 = S n 2 二阶中心矩:\hat{\sigma^2} = \frac{1}{n}\sum_{i=1}^n(X_i - \bar{X})^2 = S_n^2 σ2^=n1i=1n(XiXˉ)2=Sn2
  3. 示例
    例如:X~N( μ \mu μ, σ 2 \sigma^2 σ2)中
    μ = E ( x ) \mu = E(x) μ=E(x)
    σ 2 = E ( x 2 ) − E ( x ) 2 {\sigma^2} = E(x^2)-E(x)^2 σ2=E(x2)E(x)2
  4. 定义
    在这里插入图片描述
  5. 实例
    做一次营销活动,营销1000人,事后统计有120人购买,其余人没有购买。用矩估计计算随机事件分布的参数。
    解:
    令伯努利分布的参数为营销后响应的概率§,其分布为B(1000,p)。
    p ^ = X ˉ = 1 n ∑ i = 1 n X i = f n ( A ) \hat{p} = \bar{X} = \frac{1}{n}\sum_{i=1}^n{X_i} = f_n(A) p^=Xˉ=n1i=1nXi=fn(A)
    p ^ \hat{p} p^ = 120/1000=0.12

1.4.2 极大似然估计

统计学和机器学习共用的算法:极大似然估计

机器学习的方法论:算法、目标函数、计算方法
1.选择算法:如y连续=》选择线性回归、回归树、神经网络等;y二分类=》选择决策树、逻辑回归、支撑向量机、朴素贝叶斯等
2.选择目标函数:逻辑回归和线性回归的目标函数可以是极大似然,还有熵、损失函数等
3.选择计算算法:牛顿迭代法、梯度下降法等

1.4.2.1 定义

在这里插入图片描述
估计的是参数,如果似然函数 L ( θ ) = L ( x i , x 2 , . . . , x n ; θ ) L(\theta) = L(x_i,x_2,...,x_n;\theta) L(θ)=L(xi,x2,...,xn;θ) θ = θ ^ \theta = \hat{\theta} θ=θ^时达到最大值,则称 θ ^ \hat{\theta} θ^是参数 θ \theta θ的极大似然估计。

整个的极大似然估计是将目标函数(似然函数)对参数求导,如 ∂ L ( θ ) ∂ θ = 0 \frac{\partial{L(\theta)}}{\partial{\theta}}=0 θL(θ)=0,求解参数。
有几个参数就用似然函数分别对这个及参数求导

1.4.2.2 实例-伯努利分布
  • 伯努利分布:一种离散分布,用于表示0-1型事件发生的概率。例:P(逾期) = p,P(不逾期) = 1-p
  • 伯努利分布的密度函数
    P ( Y = y ) = p y ∗ ( 1 − p ) 1 − y , y = 1 , 逾 期 y = 0 不 逾 期 。 P(Y= y) = p^y * (1-p)^{1-y},y=1,逾期y=0不逾期。 P(Y=y)=py(1p)1y,y=1,y=0
  • 伯努利的似然函数
    在这里插入图片描述
    对似然函数取对数求导数得: p ^ = ∑ y i n \hat{p} = \frac{\sum{y_i}}{n} p^=nyi
1.4.2.3 极大似然估计的优缺点

优点:利用了分布函数形式,得到的估计量的精度一般较高
缺点:要知道总体的分布函数形式

1.5 机器学习

1.5.1 机器学习的极大似然估计

1.5.1.1线性回归的最小二乘法

最小二乘法:矩估计和极大似然估计的一个特例。
最小二乘法:样本点与拟合直线的竖直距离(残差)的平方和越小越好。
∑ i = 1 n e i 2 = ∑ i = 1 n ( y i − β 0 ^ − β i ^ ∗ x i ) 2 \sum_{i=1}^n{e_i^2} = \sum_{i=1}^n{(y_i-\hat{\beta_0} - \hat{\beta_i}*x_i)^2} i=1nei2=i=1n(yiβ0^βi^xi)2
在这里插入图片描述
机器学习中有参数、超参数,参数是一个模型里可以变化的量,超参数用来调节找出最优模型的。
最小二乘法估计参数
在这里插入图片描述

1.5.1.2线性回归的极大似然估计法

线性回归中,假设扰动项服从正态分布,模型为 y i = β ∗ x i + ϵ i y_i = \beta*x_i + \epsilon_i yi=βxi+ϵi ϵ i \epsilon_i ϵi服从正态分布 ( 0 , σ 2 ) (0,\sigma^2) (0,σ2)
其中回归系数 β \beta β和扰动项的方差 σ 2 \sigma^2 σ2为参数。

步骤一:计算似然函数 L ( β , σ 2 ) = f ( y 1 , y 2 , . . . , y n ∣ β , σ 2 ) = ∏ i = 1 n f ( y i ∣ β , σ 2 ) L(\beta,\sigma^2) = f(y_1,y_2,...,y_n|{\beta,\sigma^2}) = \prod_{i=1}^{n}{f(y_i|{\beta,\sigma^2})} L(β,σ2)=f(y1,y2,...,ynβ,σ2)=i=1nf(yiβ,σ2) 参数为 β 和 σ 2 \beta 和 \sigma^2 βσ2
步骤二:y与扰动项是同源的,所以y也应该服从正态分布 ( β ∗ x i , σ 2 ) (\beta*x_i,\sigma^2) (βxi,σ2)。将其带入上式为在这里插入图片描述
步骤三:对参数取对数分别求导
取对数为 l n L = − n 2 l n 2 π − − n 2 l n σ 2 − 1 2 σ 2 ∑ i = 1 n ( y i − β ∗ x i ) 2 lnL = \frac{-n}{2}ln2\pi - \frac{-n}{2}ln\sigma^2- \frac{1}{2\sigma^2}\sum_{i=1}^{n}{(y_i - \beta*x_i)^2} lnL=2nln2π2nlnσ22σ21i=1n(yiβxi)2
对参数求导
在这里插入图片描述

1.5.1.3 线性回归极大似然估计法的惩罚项

极大似然法只能计算模型结果,不能筛选最优模型,所以利用超参数进行筛选模型。

在目标函数的基础上,加入惩罚项(正则),将无用的X筛选掉,得到最优结果。惩罚项是关于模型大小的一部分。

最终适中的惩罚是,最优的λ使得到模型精确度高且方差小。

  • 岭回归(L2惩罚):加平方项
    在这里插入图片描述

  • Lasso回归(L1惩罚):加绝对值
    在这里插入图片描述

1.5.2 逻辑回归的极大似然估计

1.5.2.1 逻辑回归的极大似然估计
  • 案例及推导

假设商家在推销iPad,每个消费者都有一个效用函数,消费者对ipad的需求受一些解释变量的影响,比如阅读的次数、玩游戏的次数等等。
步骤一:
效用函数 y ∗ y^* y为: y ∗ = X ′ ∗ β + ϵ y^* = X'*\beta+\epsilon y=Xβ+ϵ ;X’为解释变量, y ∗ y^* y被称为隐变量且未知。
y代表观测结果,即消费者是否购买iPad,设iPad价格为1000,则 y = { 1 , if  y ∗  >1000 0 , if  y ∗  <=1000 y = \begin{cases} 1, & \text {if $y^*$ >1000} \\ 0, & \text{if $y^*$ <=1000} \end{cases} y={1,0,if y >1000if y <=1000
步骤二:
购买iPad的客户的概率:
在这里插入图片描述
其中F(x)为扰动项的累积概率密度函数。
不购买iPad的客户的概率:在这里插入图片描述
步骤三:
将两个式子带入到逻辑回归的极大似然估计,得到似然函数:
∏ y = 0 F ( − x ′ β ) ∏ y = 1 [ 1 − F ( − x ′ β ) ] \prod_{y=0}F(-x'\beta)\prod_{y=1}[1-F(-x'\beta)] y=0F(xβ)y=1[1F(xβ)]

逻辑回归有两种概率密度可以带进去:logist分布和正态分布;带入logist分布得到的是logist回归,带入正态分布得到的是probit回归
步骤四:
假设扰动项 ϵ \epsilon ϵ服从logist分布,则累计概率密度函数:
在这里插入图片描述
将累积概率密度函数带入到似然函数中得到逻辑回归的似然函数,对其取对数,得到对数似然函数:
在这里插入图片描述
求导之后没有解析解,一般使用牛顿法进行数值计算。

1.5.2.2 逻辑回归极大似然估计的惩罚项

逻辑回归的极大似然估计法是带入多少x,求其最优解。如果过度拟合,则应该加入惩罚项。
在这里插入图片描述
C越小,目标函数的权重越低,前面的权重越高。所以C越小,惩罚越高。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值