内容导读:
- 1.参数估计的方法
- 2.最大似然法与最小二乘法
- 3.参数估计的公式及推导
- 4.机器学习中的模型效果衡量指标
一.参数估计的方法:
参数估计分为点估计和区间估计:
1.点估计:
指用样本估计量的某个取值直接作为总体参数的估计值的估计,包括:
(1).矩估计法;
(2).顺序统计量法;
(3).最大似然法;
(4).最小二乘法;
2.区间估计:
是在点估计的基础上定范围,由样本统计量加减估计误差而得,根据样本统计量和抽样分布能对样本统计量与总体参数的接近程度给出一概率度量.
二.最大似然法与最小二乘法:
在线性回归中,我们估计参数的方法为最小二乘法,我们构造了一个二次函数并求出了它的最小值,用同样的方法构造出LR的损失函数为非凸函数,可能得到的最小值为局部最小值,而非全局最小值,也就是说,在LR的损失函数为非凸函数的情况下,我们用梯度下降法可能求不出全局最优解.
在逻辑回归中,我们选择使用最大似然法,那么,最大似然法是如何寻找出全局最优解的呢,我们一起来看一下.
1.最大似然法:
在英文中,似然(likelihood)和概率(probability)是同义词,都指事件发生的可能性,但是在统计学中似然和概率却是两个不同的概念。概率是在特定环境下某件事情发生的可能性,也就是结果没有产生之前依据环境所对应的参数来预测某件事情发生的可能性.
最大似然估计认为:我们多次观察到的结果就是最可能发生的结果,即:我们观察到的样本概率最大的参数就是整体分布的参数,
2.最小二乘法:
最小二乘法(又称最小平方法)是一种数学优化技术,前几期介绍的线性回归模型求最优解的过程中使用的便是此方法.它通过最小化误差的平方和寻找数据的最佳函数匹配.利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小.最小二乘法还可用于曲线拟合.
三.参数估计的公式及推导:
逻辑回归中的参数估计:
模型假设:
h
θ
(
x
)
=
g
(
θ
T
x
)
h_{\theta }(x)=g(\theta ^{T}x)
hθ(x)=g(θTx)
其中,x代表特征向量,θ代表参数,g为激活函数
一个常用的激活函数为(Sigmoid function):
g
(
z
)
=
1
1
+
e
−
z
=
1
1
+
e
−
θ
x
g(z)=\frac{1}{1+e^{-z}}=\frac{1}{1+e^{-\theta x}}
g(z)=1+e−z1=1+e−θx1
h
θ
(
x
)
h_{\theta }(x)
hθ(x) 的作用:
对于给定的输入变量,根据选择的参数计算输出变量=1的可能性,即:
P
(
y
=
1
∣
x
;
θ
)
=
h
θ
(
x
)
P(y=1|x;\theta )=h_{\theta }(x)
P(y=1∣x;θ)=hθ(x)
P
(
y
=
0
∣
x
;
θ
)
=
1
−
h
θ
(
x
)
P(y=0|x;\theta )=1-h_{\theta }(x)
P(y=0∣x;θ)=1−hθ(x)
P
(
y
∣
x
;
θ
)
=
h
θ
(
x
)
y
(
1
−
h
θ
(
x
)
)
1
−
y
P(y|x;\theta )=h_{\theta }(x)^{y}(1-h_{\theta }(x))^{1-y}
P(y∣x;θ)=hθ(x)y(1−hθ(x))1−y
对于给定的x,通过已确定的参数算得
h
θ
(
x
)
h_{\theta }(x)
hθ(x)=0.7,则70%的概率y为正类,那么y的负类概率为1-0.7=0.3
在推导的过程中,公式经历了由求似然函数的最大值→对数似然的最大值→负对数似然的最小值→损失函数的最小值:
之后,再将正则化项代入LR的损失函数中:
四.机器学习中的模型效果衡量指标:
即估计误差的表示方法,有以下两种形式:
1.准确率:
A
c
c
=
真
阴
性
+
真
阳
性
t
o
t
a
l
(
真
阳
性
+
假
阳
性
+
真
阴
性
+
假
阴
性
)
Acc = \frac {真阴性+真阳性} {total(真阳性+假阳性+真阴性+假阴性)}
Acc=total(真阳性+假阳性+真阴性+假阴性)真阴性+真阳性
此种方法求出的准确率有一定的局限性,即类偏斜,或者说数据不平衡,如
例如我们希望用算法来预测癌症是否是恶性的,在我们的数据中,只有0.5%的实例是恶性肿瘤.假设我们预测肿瘤全是良性的,那么误差只有0.5%.然而我们通过训练而得到的算法却有1%的误差.
这时,误差的大小是不能视为评判算法效果的依据的.
2.查准率和查全率
上述图中,我们可以通过选取预测值和实际值的各种比率特征,对模型的误差进行表示与评估:
精确率(查准率)(Precision)=
T
P
T
P
+
F
P
\frac {TP} {TP+FP}
TP+FPTP
召唤率(查全率) =
T
P
T
P
+
F
N
\frac {TP} {TP+FN}
TP+FNTP
此外,我们还会用F1来评估准确度和召唤率,是精确率和召回率的调和均值,当精确率和召回率都很高时,F1值也会很高:
2
F
1
=
1
P
+
1
R
\frac {2} {F_{1}}= \frac {1} {P} + \frac {1} {R}
F12=P1+R1
T
P
R
=
T
P
T
P
+
F
N
TPR=\frac {TP} {TP+FN}
TPR=TP+FNTP 灵敏度(真阳性,召回率),是识别的正确的例子占所有实际正确例子的比例
F
P
R
=
F
P
T
N
+
F
P
FPR=\frac {FP} {TN+FP}
FPR=TN+FPFP 特异度(假阳性),是识别的假阳性的例子占所有实际负例的比例
上述图中,ROC曲线下方面积越大,代表所拟合的模型越好.