参数估计与模型调优
1.1模型概要
★ 统计学 ≠ 统计学习;统计学习 = 机器学习
- 统计学和机器学习共用的算法:线性回归、逻辑回归、极大似然估计
- 机器学习算法:决策树、神经网络等,其核心是极大似然估计法。
机器学习是一个工程,更关心计算的可行性和效率;
统计学更多的处理小数据,更关心方法的严谨性和适用性。
1.2 模型调优
- 统计学的模型调优:看
R^2、AIC、BIC
参数 - 统计学习的模型调优:看
accuracy、precise、specificity、recall
等指标,并调节超参数
注:lasso算法、岭回归等算法,其惩罚项叫超参数
1.3 统计学习(机器学习)的模型调优
统计学中一般没有超参数,只有参数。
机器学习中为了减少人的介入,设置超参数,根据模型的目标函数选择最优的超参数。
1.3.1 机器学习各种目标函数
模型调优就是根据各种评估指标,选择最合适的超参数,没有必要过度拟合。
Y是连续变量:
模型评估指标的目标函数:
Y是二分类变量
模型评估指标的目标函数:
预测类型 | 统计量 |
---|---|
决策 | 正确率、召回率、精确度、F1分数 |
排序 | ROC指标(一致性)、Gini指数、K-S统计量、提升度 |
1.3.2 机器学习模型复杂度
偏差 - 方差权衡
在训练集中模型的复杂程度越高偏差越小(预测的越准),复杂程度越高的模型在测试集中预测是不稳定的(方差越大)。
在训练集中模型越简单,偏差会增加,在测试集中预测越稳定(方差越小)。
1.3.3机器学习中模型调优的方案
在训练集中建模,在测试集中看模型的表现。
随着变量逐步增加,训练数据集中的误差平方和(ASE)逐渐下降,测试数据集中的ASE达到一定值后逐渐上升。能控制模型复杂度的就是超参数,如ASE。
1.3.4 Lasso
Lasso:不删除变量,但使得一些回归系数收缩、变小,甚至为0。
两图形的相交点是
β
1
=
0
,
β
2
=
1
\beta_1 = 0,\beta_2 = 1
β1=0,β2=1,表示在惩罚项处于当时的情况下,目标函数的最优解。
1.4 统计学的估计
1 统计学中有参数统计和非参数统计,参数估计用于参数统计学。
- 参数统计:假设某个变量服从某个分布,用随机变量的数字特征估计总体的数字特征。
- 参数估计类型:点估计、区间估计
- 点估计:估计未知参数的值
- 区间估计:估计未知参数的取值范围,使得这个范围包含未知参数真值的概率为给定的值。
- 非参数统计:认为某个参数服从某个分布是臆断的,不做假设。
2 最小二乘估计是矩估计和极大似然估计的一个特例。
3 贝叶斯估计属于贝叶斯学派的,一共有两个学派:频次统计学派和贝叶斯学派。【贝叶斯学派本专栏不涉及】
1.4.1 矩估计
- 矩估计:用样本直接算出阶矩
- 公式
一 阶 矩 : μ ^ = 1 n ∑ i = 1 n X i 一阶矩:\hat{\mu} = \frac{1}{n}\sum_{i=1}^nX_i 一阶矩:μ^=n1∑i=1nXi
r 阶 矩 : B r = 1 n ∑ i = 1 n X i r r阶矩:B_r = \frac{1}{n}\sum_{i=1}^nX_i^r r阶矩:Br=n1∑i=1nXir
二 阶 中 心 矩 : σ 2 ^ = 1 n ∑ i = 1 n ( X i − X ˉ ) 2 = S n 2 二阶中心矩:\hat{\sigma^2} = \frac{1}{n}\sum_{i=1}^n(X_i - \bar{X})^2 = S_n^2 二阶中心矩:σ2^=n1∑i=1n(Xi−Xˉ)2=Sn2 - 示例
例如:X~N( μ \mu μ, σ 2 \sigma^2 σ2)中
μ = E ( x ) \mu = E(x) μ=E(x)
σ 2 = E ( x 2 ) − E ( x ) 2 {\sigma^2} = E(x^2)-E(x)^2 σ2=E(x2)−E(x)2 - 定义
- 实例
做一次营销活动,营销1000人,事后统计有120人购买,其余人没有购买。用矩估计计算随机事件分布的参数。
解:
令伯努利分布的参数为营销后响应的概率§,其分布为B(1000,p)。
p ^ = X ˉ = 1 n ∑ i = 1 n X i = f n ( A ) \hat{p} = \bar{X} = \frac{1}{n}\sum_{i=1}^n{X_i} = f_n(A) p^=Xˉ=n1∑i=1nXi=fn(A)
p ^ \hat{p} p^ = 120/1000=0.12
1.4.2 极大似然估计
统计学和机器学习共用的算法:极大似然估计
机器学习的方法论:算法、目标函数、计算方法
1.选择算法:如y连续=》选择线性回归、回归树、神经网络等;y二分类=》选择决策树、逻辑回归、支撑向量机、朴素贝叶斯等
2.选择目标函数:逻辑回归和线性回归的目标函数可以是极大似然,还有熵、损失函数等
3.选择计算算法:牛顿迭代法、梯度下降法等
1.4.2.1 定义
估计的是参数,如果似然函数
L
(
θ
)
=
L
(
x
i
,
x
2
,
.
.
.
,
x
n
;
θ
)
L(\theta) = L(x_i,x_2,...,x_n;\theta)
L(θ)=L(xi,x2,...,xn;θ)在
θ
=
θ
^
\theta = \hat{\theta}
θ=θ^时达到最大值,则称
θ
^
\hat{\theta}
θ^是参数
θ
\theta
θ的极大似然估计。
整个的极大似然估计是将目标函数(似然函数)对参数求导,如
∂
L
(
θ
)
∂
θ
=
0
\frac{\partial{L(\theta)}}{\partial{\theta}}=0
∂θ∂L(θ)=0,求解参数。
有几个参数就用似然函数分别对这个及参数求导
。
1.4.2.2 实例-伯努利分布
- 伯努利分布:一种离散分布,用于表示0-1型事件发生的概率。例:P(逾期) = p,P(不逾期) = 1-p
- 伯努利分布的密度函数
P ( Y = y ) = p y ∗ ( 1 − p ) 1 − y , y = 1 , 逾 期 y = 0 不 逾 期 。 P(Y= y) = p^y * (1-p)^{1-y},y=1,逾期y=0不逾期。 P(Y=y)=py∗(1−p)1−y,y=1,逾期y=0不逾期。 - 伯努利的似然函数
对似然函数取对数求导数得: p ^ = ∑ y i n \hat{p} = \frac{\sum{y_i}}{n} p^=n∑yi
1.4.2.3 极大似然估计的优缺点
优点:利用了分布函数形式,得到的估计量的精度一般较高
缺点:要知道总体的分布函数形式
1.5 机器学习
1.5.1 机器学习的极大似然估计
1.5.1.1线性回归的最小二乘法
最小二乘法:矩估计和极大似然估计的一个特例。
最小二乘法:样本点与拟合直线的竖直距离(残差)的平方和越小越好。
∑
i
=
1
n
e
i
2
=
∑
i
=
1
n
(
y
i
−
β
0
^
−
β
i
^
∗
x
i
)
2
\sum_{i=1}^n{e_i^2} = \sum_{i=1}^n{(y_i-\hat{\beta_0} - \hat{\beta_i}*x_i)^2}
∑i=1nei2=∑i=1n(yi−β0^−βi^∗xi)2
机器学习中有参数、超参数,参数是一个模型里可以变化的量,超参数用来调节找出最优模型的。
最小二乘法估计参数:
1.5.1.2线性回归的极大似然估计法
线性回归中,假设扰动项服从正态分布,模型为
y
i
=
β
∗
x
i
+
ϵ
i
y_i = \beta*x_i + \epsilon_i
yi=β∗xi+ϵi ,
ϵ
i
\epsilon_i
ϵi服从正态分布
(
0
,
σ
2
)
(0,\sigma^2)
(0,σ2)
其中回归系数
β
\beta
β和扰动项的方差
σ
2
\sigma^2
σ2为参数。
步骤一:计算似然函数
L
(
β
,
σ
2
)
=
f
(
y
1
,
y
2
,
.
.
.
,
y
n
∣
β
,
σ
2
)
=
∏
i
=
1
n
f
(
y
i
∣
β
,
σ
2
)
L(\beta,\sigma^2) = f(y_1,y_2,...,y_n|{\beta,\sigma^2}) = \prod_{i=1}^{n}{f(y_i|{\beta,\sigma^2})}
L(β,σ2)=f(y1,y2,...,yn∣β,σ2)=i=1∏nf(yi∣β,σ2) 参数为
β
和
σ
2
\beta 和 \sigma^2
β和σ2
步骤二:y与扰动项是同源的,所以y也应该服从正态分布
(
β
∗
x
i
,
σ
2
)
(\beta*x_i,\sigma^2)
(β∗xi,σ2)。将其带入上式为
步骤三:对参数取对数分别求导
取对数为
l
n
L
=
−
n
2
l
n
2
π
−
−
n
2
l
n
σ
2
−
1
2
σ
2
∑
i
=
1
n
(
y
i
−
β
∗
x
i
)
2
lnL = \frac{-n}{2}ln2\pi - \frac{-n}{2}ln\sigma^2- \frac{1}{2\sigma^2}\sum_{i=1}^{n}{(y_i - \beta*x_i)^2}
lnL=2−nln2π−2−nlnσ2−2σ21i=1∑n(yi−β∗xi)2
对参数求导
1.5.1.3 线性回归极大似然估计法的惩罚项
极大似然法只能计算模型结果,不能筛选最优模型,所以利用超参数进行筛选模型。
在目标函数的基础上,加入惩罚项(正则),将无用的X筛选掉,得到最优结果。惩罚项是关于模型大小
的一部分。
最终适中的惩罚是,最优的λ使得到模型精确度高且方差小。
-
岭回归(L2惩罚):加平方项
-
Lasso回归(L1惩罚):加绝对值
1.5.2 逻辑回归的极大似然估计
1.5.2.1 逻辑回归的极大似然估计
- 案例及推导
假设商家在推销iPad,每个消费者都有一个效用函数,消费者对ipad的需求受一些解释变量的影响,比如阅读的次数、玩游戏的次数等等。
步骤一:
效用函数
y
∗
y^*
y∗为:
y
∗
=
X
′
∗
β
+
ϵ
y^* = X'*\beta+\epsilon
y∗=X′∗β+ϵ ;X’为解释变量,
y
∗
y^*
y∗被称为隐变量且未知。
y代表观测结果,即消费者是否购买iPad,设iPad价格为1000,则
y
=
{
1
,
if
y
∗
>1000
0
,
if
y
∗
<=1000
y = \begin{cases} 1, & \text {if $y^*$ >1000} \\ 0, & \text{if $y^*$ <=1000} \end{cases}
y={1,0,if y∗ >1000if y∗ <=1000
步骤二:
购买iPad的客户的概率:
其中F(x)为扰动项的累积概率密度函数。
不购买iPad的客户的概率:
步骤三:
将两个式子带入到逻辑回归的极大似然估计,得到似然函数:
∏
y
=
0
F
(
−
x
′
β
)
∏
y
=
1
[
1
−
F
(
−
x
′
β
)
]
\prod_{y=0}F(-x'\beta)\prod_{y=1}[1-F(-x'\beta)]
∏y=0F(−x′β)∏y=1[1−F(−x′β)]
逻辑回归有两种概率密度可以带进去:logist分布和正态分布;带入logist分布得到的是logist回归,带入正态分布得到的是probit回归
步骤四:
假设扰动项
ϵ
\epsilon
ϵ服从logist分布,则累计概率密度函数:
将累积概率密度函数带入到似然函数中得到逻辑回归的似然函数,对其取对数,得到对数似然函数:
求导之后没有解析解,一般使用牛顿法进行数值计算。
1.5.2.2 逻辑回归极大似然估计的惩罚项
逻辑回归的极大似然估计法是带入多少x,求其最优解。如果过度拟合,则应该加入惩罚项。
C越小,目标函数的权重越低,前面的权重越高。所以C越小,惩罚越高。