K近邻也被成为懒惰学习算法
1;噪声问题
噪声是在对数据处理时无法避免的问题,
2;计算最近临问题
在简单的N类预测的时候我们经常会选用占多数类型的值,来进行的预测,
- 确定K值 ,如果想要确定要进行分类的类别,我们首先要进行距离的判定,(简单的分类标准就是相似是1,不相似是0)
- 找到占比最大类的类标签 把类标签给L,然后把要分类的实例I归类为类L;If more than one majority label,select one randomly(如果有不止一个占比最大的类标签,我们就随机选择一个)
- K近邻学习法的学习速度K近邻学习在学习时并没有进行学习,所以它被成为懒惰学习法。
针对3,我们要加速K近邻学习法的速度,
线性模型
1;广义线性模型:
线性回归、logistic回归、softmax回归,线性回归是基于高斯分布+最大似然估计的结果;logistic是伯努利回归+对数最大似然估计的结果;
广义线性模型的形式:
1):
y
∣
x
;
θ
∼
E
x
p
F
a
m
i
l
y
(
η
)
y|x;\theta \sim ExpFamily(\eta)
y∣x;θ∼ExpFamily(η);给定样本x和参数
θ
\theta
θ,样本分类y服从指数家族的某个分布
2):给定一个x,目标函数为
h
θ
(
x
)
=
E
[
T
(
y
)
x
]
h_\theta(x)=E[T(y)x]
hθ(x)=E[T(y)x]
3);
η
=
θ
T
x
\eta=\theta^{T}x
η=θTx
2;对数几率回归
数几率函数:
y
=
1
1
+
e
−
x
y=\frac{1}{1+e^{-x}}
y=1+e−x1(2.1),
对数几率函数是一种"Sigmoid函数",它将z值转化为0或1的
y
y
y值,将此函数作为
g
−
(
.
)
g^-(.)
g−(.)
将
y
y
y视为样本
x
x
x作为正例的可能性,对几率取对数则得到“对数几率”,
l
n
y
1
−
y
ln\frac{y}{1-y}
ln1−yy. (2.2).
此处
x
x
x为样本
x
x
x,预测实际是去逼近真实值,其对应的模型为"对数几率回归",公式2.1的
y
y
y视为后验概率估计
p
(
y
=
1
∣
x
)
p(y=1|x)
p(y=1∣x),则2.2可以重写为
l
n
p
(
y
=
1
∣
x
)
p
(
y
=
0
∣
x
)
=
w
T
x
+
b
ln\frac{p(y=1|x)}{p(y=0|x)}=w^Tx+b
lnp(y=0∣x)p(y=1∣x)=wTx+b,
显然有
p
(
y
=
1
∣
x
)
=
e
(
w
T
+
b
)
1
+
e
(
w
T
+
b
)
p(y=1|x)=\frac{e^(w^T+b)}{1+e^(w^T+b)}
p(y=1∣x)=1+e(wT+b)e(wT+b) (3.3),
p
(
y
=
0
∣
x
)
=
1
1
+
e
(
w
T
+
b
)
p(y=0|x)=\frac{1}{1+e^(w^T+b)}
p(y=0∣x)=1+e(wT+b)1 (3.4)
于是我们通过"极大自然法"来估计
w
w
w和
b
b
b.给定数据集
{
(
x
i
,
y
i
)
}
m
i
=
1
{\{(x_i,y_i)\}}\begin{array}{c}m \\ i=1\end{array}
{(xi,yi)}mi=1,对率回归模型
ℓ
(
w
,
b
)
=
∑
i
=
1
m
l
n
p
(
y
i
∣
x
i
;
w
,
b
)
\ell(w,b)=\sum\limits_{i=1}^{m}ln p(y_i|x_i;w,b)
ℓ(w,b)=i=1∑mlnp(yi∣xi;w,b)
[
1
]
[^1]
[1]
即令每个样本属于真实标记的概率越大越好,讨论时,
β
=
(
w
,
b
)
\beta=(w,b)
β=(w,b),
x
^
=
(
x
;
1
)
\hat{x}=(x;1)
x^=(x;1),1是代表只有一个变量,则
w
T
+
b
w^T+b
wT+b可简写为
β
T
x
^
\beta^T\hat{x}
βTx^.
最大似然函数转换
再令
p
1
(
x
^
;
β
)
=
p
(
y
=
1
∣
x
^
;
β
)
p_1(\hat{x};\beta)=p(y=1|\hat{x};\beta)
p1(x^;β)=p(y=1∣x^;β),
p
0
(
x
^
;
β
)
=
p
(
y
=
0
∣
x
^
;
β
)
=
1
−
p
1
(
x
^
;
β
)
p_0(\hat{x};\beta)=p(y=0|\hat{x};\beta)=1-p_1(\hat{x};\beta)
p0(x^;β)=p(y=0∣x^;β)=1−p1(x^;β);
则对数回归模型的似然项
[
1
]
[^1]
[1]可重写为
p
(
y
i
∣
x
i
;
w
,
b
)
=
y
i
p
1
(
x
^
i
;
β
)
+
(
1
−
y
i
)
p
0
(
x
^
i
;
β
)
p(y_i|x_i;w,b)=y_ip_1(\hat{x}_i;\beta)+(1-y_i)p_0(\hat{x}_i;\beta)
p(yi∣xi;w,b)=yip1(x^i;β)+(1−yi)p0(x^i;β)
[
2
]
[^2]
[2]
对于
[
2
]
[^2]
[2]等价于最小化
ℓ
(
β
)
=
∑
i
=
1
m
(
−
y
i
β
T
+
l
n
(
1
+
e
β
T
x
^
i
)
)
\ell(\beta)=\sum\limits_{i=1}^{m}(-y_i\beta^T+ln(1+e^{\beta^{T}\hat{x}_i}))
ℓ(β)=i=1∑m(−yiβT+ln(1+eβTx^i))
线性判别分析:
LDA线性判别分析是一种经典的线性判方法:具体思想就是将样例投影到一条直线上,使得同类样例的投影点尽可能接近;
μ
\mu
μ代表均值向量;
∑
i
\sum_i
∑i代表协方差矩阵,欲使同类样例的投影点尽可能接近,可以让同类样例投影点的协方差尽可能小。
利用sklearn进行逻辑回归预测
如何评估监督学习的学习效果,
1;什么是公平评估方法?
评估的终极目标是确保监督学习的结果,
2;我们为什么要进行评估?
评估方法:
留一法:
K折交叉验证:
评估指标
predicted labels©;acc=C/N