目录
1. 分类模型评价指标
- 真阳性TP:预测值和真实值都为正例;
- 真阴性TN:预测值与真实值都为负例;
- 假阳性FP:预测值为正,实际值为负;
- 假阴性FN:预测值为负,实际值为正;
分类模型的指标:
准确率 | 分类正确的样本数占总样本的比例 | A C C = T P + T N F P + F N + T P + T N ACC = \frac{TP+TN}{FP+FN+TP+TN} ACC=FP+FN+TP+TNTP+TN. |
精度 | 预测为正且分类正确的样本占预测值为正的比例 | P R E = T P T P + F P PRE = \frac{TP}{TP+FP} PRE=TP+FPTP. |
召回率 | 预测为正且分类正确的样本占类别为正的比例 | R E C = T P T P + F N REC = \frac{TP}{TP+FN} REC=TP+FNTP. |
F1值 | 综合衡量精度和召回率 | F 1 = 2 P R E × R E C P R E + R E C F1 = 2\frac{PRE\times REC}{PRE + REC} F1=2PRE+RECPRE×REC. |
ROC曲线 | 以假阳率为横轴,真阳率为纵轴画出来的曲线,曲线下方面积越大越好。 |
sklearn中相关调用
https://scikit-learn.org/stable/modules/model_evaluation.html#classification-metrics
本节中使用鸢尾花数据集,使用ROC曲线作为评价指标
鸢尾花数据集里特征含义
- sepal length (cm):花萼长度(厘米)
- sepal width (cm):花萼宽度(厘米)
- petal length (cm):花瓣长度(厘米)
- petal width (cm):花瓣宽度(厘米)
python
from sklearn import datasets
iris = datasets.load_iris()
X = iris.data
y = iris.target
feature = iris.feature_names
data = pd.DataFrame(X,columns=feature)
data['target'] = y
data.head()
2. 逻辑回归
逻辑回归是一种分类模型
在推导逻辑回归之前,我们先来认识下一组函数,这组函数具有神奇的作用,可以将是实数轴上的数转换为[0:1]区间上的概率。
首先,我们假设我们的线性回归模型为
Y
=
β
0
+
β
1
X
{Y=\beta_0+\beta_1 X}
Y=β0+β1X,那么这个函数是如何将线性回归的结果转化为概率呢?这个函数就是logistic 函数,具体的形式为
p
(
X
)
=
e
β
0
+
β
1
X
1
+
e
β
0
+
β
1
X
{p(X) = \dfrac{e^{\beta_0 + \beta_1X}}{1+e^{\beta_0 + \beta_1X}}}
p(X)=1+eβ0+β1Xeβ0+β1X,他的函数图像如下图:(左边是线性回归,右边是逻辑函数)
因此,我们假设逻辑回归模型为:
p
(
y
=
1
∣
x
)
=
1
1
+
e
−
w
T
x
p(y = 1|x) = \frac{1}{1+e^{-w^Tx}}
p(y=1∣x)=1+e−wTx1 .
下面我们来具体推导下逻辑回归模型:
假设数据Data
{
(
x
i
,
y
i
)
}
,
i
=
1
,
2
,
.
.
.
,
N
,
x
i
∈
R
p
,
y
i
∈
{
0
,
1
}
\{(x_i,y_i) \},\;\;i = 1,2,...,N,\;\;x_i \in R^p,y_i \in \{0,1 \}
{(xi,yi)},i=1,2,...,N,xi∈Rp,yi∈{0,1},设
p
1
=
p
(
y
=
1
∣
x
)
=
σ
(
w
T
)
=
1
1
+
e
−
w
T
x
p_1 = p(y=1|x) = \sigma(w^T) = \frac{1}{1+e^{-w^Tx}}
p1=p(y=1∣x)=σ(wT)=1+e−wTx1。因为y只可能取0或者1,因此假设数据服从0-1分布,也叫伯努力分布,即:当y=1时,
p
(
y
∣
x
)
=
p
1
p(y|x)=p_1
p(y∣x)=p1,当y=0时,
p
(
y
∣
x
)
=
1
−
p
1
p(y|x)=1-p_1
p(y∣x)=1−p1,可以写成
p
(
y
∣
x
)
=
p
1
y
(
1
−
p
1
)
1
−
y
p(y|x) = p_1^y(1-p_1)^{1-y}
p(y∣x)=p1y(1−p1)1−y,可以带入y=0和y=1进去验证,结果和前面的结论一模一样。
我们使用极大似然估计MLE,即:
w
^
=
a
r
g
m
a
x
w
l
o
g
P
(
Y
∣
X
)
=
a
r
g
m
a
x
x
l
o
g
∏
i
=
1
N
P
(
y
i
∣
x
i
)
=
a
r
g
m
a
x
w
∑
i
=
1
N
l
o
g
P
(
y
i
∣
x
i
)
=
a
r
g
m
a
x
w
∑
i
=
1
N
(
y
i
l
o
g
p
1
+
(
1
−
y
i
)
l
o
g
(
1
−
p
1
)
)
记
:
L
(
w
)
=
∑
i
=
1
N
(
y
i
l
o
g
p
1
+
(
1
−
y
i
)
l
o
g
(
1
−
p
1
)
)
∂
L
∂
w
k
=
∑
i
=
1
N
y
i
1
p
1
∂
p
1
∂
z
∂
z
∂
w
k
+
(
1
−
y
i
)
1
1
−
p
1
(
−
∂
p
1
∂
z
∂
z
∂
w
k
)
=
∑
i
=
1
N
y
i
1
σ
(
z
)
(
σ
(
z
i
)
−
σ
(
z
i
)
2
)
x
i
+
(
1
−
y
i
)
1
1
−
σ
(
z
i
)
[
−
(
σ
(
z
i
)
−
σ
(
z
i
)
2
)
x
i
]
=
∑
i
=
1
N
[
(
y
i
−
y
i
σ
(
z
i
)
)
x
i
+
(
1
−
y
i
)
(
−
σ
(
z
i
)
)
x
i
]
=
∑
i
=
1
N
y
i
x
i
−
σ
(
z
i
)
x
i
=
∑
i
=
1
N
(
y
i
−
σ
(
z
i
)
)
x
i
\hat{w} = argmax_w\;\;log\;P(Y|X) = argmax_x\;\;log\;\prod_{i=1}^N P(y_i|x_i) = argmax_w \sum\limits_{i=1}^{N} log\;P(y_i|x_i)\\ \;\;\; = argmax_w \sum\limits_{i=1}^{N}(y_ilog\;p_1 + (1-y_i)log(1-p_1)) \\ 记:L(w) = \sum\limits_{i=1}^{N}(y_ilog\;p_1 + (1-y_i)log(1-p_1))\\ \;\;\; \frac{\partial L}{\partial w_k} = \sum\limits_{i=1}^{N} y_i\frac{1}{p_1}\frac{\partial p_1}{\partial z}\frac{\partial z}{\partial w_k} + (1-y_i)\frac{1}{1-p_1}(-\frac{\partial p_1}{\partial z}\frac{\partial z}{\partial w_k})\\ \;\;\;=\sum\limits_{i=1}^{N}y_i\frac{1}{\sigma(z)}(\sigma(z_i)-\sigma(z_i)^2)x_i + (1-y_i)\frac{1}{1-\sigma(z_i)}[-(\sigma(z_i)-\sigma(z_i)^2)x_i]\\ \;\;\; =\sum\limits_{i=1}^{N}[(y_i-y_i\sigma(z_i))x_i + (1-y_i)(-\sigma(z_i))x_i]\\ \;\;\; = \sum\limits_{i=1}^{N}y_ix_i-\sigma(z_i)x_i = \sum\limits_{i=1}^{N}(y_i-\sigma(z_i))x_i
w^=argmaxwlogP(Y∣X)=argmaxxlogi=1∏NP(yi∣xi)=argmaxwi=1∑NlogP(yi∣xi)=argmaxwi=1∑N(yilogp1+(1−yi)log(1−p1))记:L(w)=i=1∑N(yilogp1+(1−yi)log(1−p1))∂wk∂L=i=1∑Nyip11∂z∂p1∂wk∂z+(1−yi)1−p11(−∂z∂p1∂wk∂z)=i=1∑Nyiσ(z)1(σ(zi)−σ(zi)2)xi+(1−yi)1−σ(zi)1[−(σ(zi)−σ(zi)2)xi]=i=1∑N[(yi−yiσ(zi))xi+(1−yi)(−σ(zi))xi]=i=1∑Nyixi−σ(zi)xi=i=1∑N(yi−σ(zi))xi
因此,
∂
L
∂
w
k
=
∑
i
=
1
N
(
y
i
−
σ
(
z
i
)
)
x
i
\frac{\partial L}{\partial w_k} = \sum\limits_{i=1}^{N}(y_i-\sigma(z_i))x_i
∂wk∂L=i=1∑N(yi−σ(zi))xi,由于这里涉及的函数不像线性回归一样能简单求出解析解,因此我们使用迭代的优化算法:梯度下降法,即:
w
k
(
t
+
1
)
←
w
k
(
t
)
−
η
∑
i
=
1
N
(
y
i
−
σ
(
z
i
)
)
x
i
(
k
)
,
其
中
,
x
i
(
k
)
为
第
i
个
样
本
第
k
个
特
征
w_k^{(t+1)}\leftarrow w_k^{(t)} - \eta \sum\limits_{i=1}^{N}(y_i-\sigma(z_i))x_i^{(k)},\;\;\;其中,x_i^{(k)}为第i个样本第k个特征
wk(t+1)←wk(t)−ηi=1∑N(yi−σ(zi))xi(k),其中,xi(k)为第i个样本第k个特征
梯度下降法等无约束算法的具体细节
最优化理论之无约束优化基本结构及其python应用:https://zhuanlan.zhihu.com/p/163405865
最优化理论之负梯度方法与Newton型方法:https://zhuanlan.zhihu.com/p/165914126
实战
# 逻辑回归
'''
penalty {‘l1’, ‘l2’, ‘elasticnet’, ‘none’}, default=’l2’正则化方式
dual bool, default=False 是否使用对偶形式,当n_samples> n_features时,默认dual = False。
C float, default=1.0
solver {‘newton-cg’, ‘lbfgs’, ‘liblinear’, ‘sag’, ‘saga’}, default=’lbfgs’
l1_ratio float, default=None
'''
from sklearn.linear_model import LogisticRegression
log_iris = LogisticRegression()
log_iris.fit(X,y)
log_iris.score(X,y)
3. 基于概率的分类模型
3.1 线性判别分析
基于贝叶斯公式对线性判别分析的理解
在概率统计的领域里有一条神奇的公式叫贝叶斯定理,具体的形式是:
P
(
Y
=
k
∣
X
=
x
)
=
π
k
f
k
(
x
)
∑
l
=
1
K
π
l
f
l
(
x
)
{P(Y=k|X=x) = \dfrac{{\pi}_kf_k(x)}{\sum\limits_{l=1}^K{\pi}_lf_l(x)}}
P(Y=k∣X=x)=l=1∑Kπlfl(x)πkfk(x)
假设观测有
K
{K}
K类,
π
k
{\pi_k}
πk为随机选择的观测来自第
k
{k}
k类的 先验概率,也就是样本里面第
k
{k}
k类的样本个数除以总样本的个数:
π
k
=
n
k
n
{\pi_k = \dfrac{n_k}{n}}
πk=nnk。再来
f
k
(
x
)
=
P
(
X
=
x
∣
Y
=
k
)
{f_k(x) =P(X=x|Y=k)}
fk(x)=P(X=x∣Y=k),表示第
k
{k}
k类观测的X的密度函数,说的直白一点就是在
Y
=
k
{Y=k}
Y=k的样本里
X
=
x
{X=x}
X=x的样本个数,即
f
k
(
x
)
=
P
(
X
=
x
∣
Y
=
k
)
=
n
(
X
=
x
,
Y
=
k
)
n
(
Y
=
k
)
{f_k(x) = P(X=x|Y=k) = \dfrac{n_{(X=x,Y=k)}}{n_{(Y=k)}}}
fk(x)=P(X=x∣Y=k)=n(Y=k)n(X=x,Y=k),最后,
∑
l
=
1
K
π
l
f
l
(
x
)
=
P
(
X
=
x
)
=
n
(
X
=
x
)
n
{\sum\limits_{l=1}^K{\pi}_lf_l(x)}=P(X=x)=\dfrac{n_{(X=x)}}{n}
l=1∑Kπlfl(x)=P(X=x)=nn(X=x),也就是样本中
X
=
x
{X=x}
X=x的概率。
贝叶斯定理与分类模型的关系:公式
P
(
Y
=
k
∣
X
=
x
)
=
π
k
f
k
(
x
)
∑
l
=
1
K
π
l
f
l
(
x
)
{P(Y=k|X=x) = \dfrac{{\pi}_kf_k(x)}{\sum\limits_{l=1}^K{\pi}_lf_l(x)}}
P(Y=k∣X=x)=l=1∑Kπlfl(x)πkfk(x)给出了给定样本条件下,
Y
=
k
{Y=k}
Y=k这个类别下的概率,这给分类问题提供了一条思路,那就是计算这个
P
(
Y
=
k
∣
X
=
x
)
{P(Y=k|X=x)}
P(Y=k∣X=x),而且我们的逻辑回归就是这么干的,但是在
P
(
Y
=
k
∣
X
=
x
)
=
π
k
f
k
(
x
)
∑
l
=
1
K
π
l
f
l
(
x
)
{P(Y=k|X=x) = \dfrac{{\pi}_kf_k(x)}{\sum\limits_{l=1}^K{\pi}_lf_l(x)}}
P(Y=k∣X=x)=l=1∑Kπlfl(x)πkfk(x)这个公式中,分母
∑
l
=
1
K
π
l
f
l
(
x
)
=
P
(
X
=
x
)
{{\sum\limits_{l=1}^K{\pi}_lf_l(x)} = P(X=x)}
l=1∑Kπlfl(x)=P(X=x)当样本给定的时候是一个与分类
k
{k}
k无关的常数,所以我们的问题可以简化为只需要计算分子
π
k
f
k
(
x
)
{{\pi}_kf_k(x)}
πkfk(x),进而比较哪个类别的概率最大就知道属于哪个类别了
这个思路不同于逻辑回归,逻辑回归需要计算具体的
P
(
Y
=
k
∣
X
=
x
)
{P(Y=k|X=x)}
P(Y=k∣X=x)概率值,而我们现在的思路是通过贝叶斯定理计算贝叶斯定理的分子,比较分子最大的那个类别为最终类别。
在我们推导复杂算法之前,我们先推导下简单的当自变量个数只有一个的模型,即
p
=
1
{p=1}
p=1的简单模型。我们记
P
(
Y
=
k
∣
X
=
x
)
=
π
k
f
k
(
x
)
∑
l
=
1
K
π
l
f
l
(
x
)
{P(Y=k|X=x) = \dfrac{{\pi}_kf_k(x)}{\sum\limits_{l=1}^K{\pi}_lf_l(x)}}
P(Y=k∣X=x)=l=1∑Kπlfl(x)πkfk(x) 的分子为
g
k
(
x
)
=
π
k
f
k
(
x
)
{g_k(x) = {\pi}_kf_k(x)}
gk(x)=πkfk(x)。在这里,我们做个模型假设:假设
f
k
(
x
)
{f_k(x) }
fk(x)服从正态分布,即
f
k
(
x
)
∼
N
(
μ
,
σ
k
2
)
{f_k(x) \sim N(\mu,\sigma_k^2)}
fk(x)∼N(μ,σk2),而且每个
σ
k
2
=
σ
2
{\sigma_k^2 = \sigma^2}
σk2=σ2,同方差假设。因此
f
k
(
x
)
=
1
2
π
σ
k
e
−
1
2
σ
2
(
x
−
μ
k
)
2
{f_k(x) = \dfrac{1}{\sqrt{2\pi}\sigma_k}e^{-\dfrac{1}{2\sigma^2}(x-\mu_k)^2}}
fk(x)=2πσk1e−2σ21(x−μk)2,最终我们的
g
k
(
x
)
=
π
k
1
2
π
σ
k
e
−
1
2
σ
2
(
x
−
μ
k
)
2
{g_k(x) = \pi_k\dfrac{1}{\sqrt{2\pi}\sigma_k}e^{-\dfrac{1}{2\sigma^2}(x-\mu_k)^2}}
gk(x)=πk2πσk1e−2σ21(x−μk)2,终于算出来啦。这个式子不是很好计算,我们对
g
k
(
x
)
{g_k(x)}
gk(x)取个对数,令
δ
k
(
x
)
=
l
n
(
g
k
(
x
)
)
=
l
n
π
k
+
μ
σ
2
x
−
μ
2
2
σ
2
{\delta_k(x) = ln(g_k(x))=ln\pi_k+\dfrac{\mu}{\sigma^2}x-\dfrac{\mu^2}{2\sigma^2}}
δk(x)=ln(gk(x))=lnπk+σ2μx−2σ2μ2,到这里我们的模型建立模型,我们只需要把位置的
μ
k
{\mu_k}
μk与
σ
2
{\sigma^2}
σ2估计出来就好了。
μ
^
k
=
1
n
k
∑
i
:
y
i
=
k
x
i
{\hat{\mu}_k =\dfrac{1}{n_k}\sum\limits_{i:y_i=k}x_i}
μ^k=nk1i:yi=k∑xi,也就是当
y
=
k
{y=k}
y=k这一类中
x
{x}
x的平均值;
σ
^
2
=
1
n
−
K
∑
k
=
1
K
∑
i
:
y
i
=
k
(
x
i
−
μ
^
k
)
2
{\hat{\sigma}^2 =\dfrac{1}{n-K}\sum\limits_{k=1}^K\sum\limits_{i:y_i=k}(x_i-\hat{\mu}_k)^2 }
σ^2=n−K1k=1∑Ki:yi=k∑(xi−μ^k)2,说白了就是计算每一类的方差,再求平均值。总结下上面的公式就是:
{
δ
k
(
x
)
=
l
n
(
g
k
(
x
)
)
=
l
n
π
k
+
μ
σ
2
x
−
μ
2
2
σ
2
μ
^
k
=
1
n
k
∑
i
:
y
i
=
k
x
i
σ
^
2
=
1
n
−
K
∑
k
=
1
K
∑
i
:
y
i
=
k
(
x
i
−
μ
^
k
)
2
{\begin{cases}\delta_k(x) = ln(g_k(x))=ln\pi_k+\dfrac{\mu}{\sigma^2}x-\dfrac{\mu^2}{2\sigma^2}\\{\hat{\mu}_k =\dfrac{1}{n_k}\sum\limits_{i:y_i=k}x_i}\\{\hat{\sigma}^2 =\dfrac{1}{n-K}\sum\limits_{k=1}^K\sum\limits_{i:y_i=k}(x_i-\hat{\mu}_k)^2}\end{cases}}
⎩⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎧δk(x)=ln(gk(x))=lnπk+σ2μx−2σ2μ2μ^k=nk1i:yi=k∑xiσ^2=n−K1k=1∑Ki:yi=k∑(xi−μ^k)2
至此,我们的模型就建立完成了,我们只需要代入数据求出
δ
k
(
x
)
{\delta_k(x)}
δk(x),哪个
k
{k}
k对应的
δ
k
(
x
)
{\delta_k(x)}
δk(x)大,就是哪一类。
(下图虚线是线性判别分析的决策边界,正态曲线哪边高样本就是哪一类)
我们推到出了一个自变量的简单模型,就要泛化为多个自变量的线性判别分析了,即
p
>
1
{p>1}
p>1。其实原理一样的,只是将一元正态分布扩展为多元正态分布:
f
k
(
x
)
=
1
(
2
π
)
p
2
∣
Σ
∣
1
2
e
[
−
1
2
(
x
−
μ
k
)
T
Σ
−
1
(
x
−
μ
k
)
]
{f_k(x)=\dfrac{1}{(2\pi)^{\tfrac{p}{2}}|\Sigma|^\tfrac{1}{2}}e^{[-\tfrac{1}{2}(x-\mu_k)^T\Sigma^{-1}(x-\mu_k)]}}
fk(x)=(2π)2p∣Σ∣211e[−21(x−μk)TΣ−1(x−μk)]
μ
k
^
=
(
μ
k
1
,
μ
k
2
,
.
.
.
.
.
.
,
μ
k
p
)
,
Σ
^
=
1
p
−
1
∑
j
=
1
p
(
x
j
−
x
‾
)
(
x
j
−
x
‾
)
T
{\hat{\mu_k}=(\mu_{k1},\mu_{k2},......,\mu_{kp}) , \hat{\Sigma}=\dfrac{1}{p-1}\sum\limits_{j=1}^p(x_j-\overline{x})(x_j-\overline{x})^T}
μk^=(μk1,μk2,......,μkp),Σ^=p−11j=1∑p(xj−x)(xj−x)T
δ
k
(
x
)
=
l
n
(
π
k
f
k
(
x
)
)
=
l
n
(
π
k
)
−
(
p
2
l
n
(
2
π
)
+
1
2
l
n
(
∣
Σ
∣
)
)
−
1
2
(
x
−
μ
k
)
T
Σ
−
1
(
x
−
μ
k
)
=
x
T
Σ
^
μ
^
k
−
1
2
μ
^
k
T
Σ
^
−
1
μ
^
k
+
l
n
π
^
k
{\delta_k(x) = ln(\pi_kf_k(x))=ln(\pi_k)-(\dfrac{p}{2}ln(2\pi)+\dfrac{1}{2}ln(|\Sigma|))-\dfrac{1}{2}(x-\mu_k)^T\Sigma^-1(x-\mu_k)=x^T\hat{\Sigma}\hat{\mu}_k-\dfrac{1} {2}\hat{\mu}_k^T\hat{\Sigma}^{-1}\hat{\mu}_k+ln\hat{\pi}_k}
δk(x)=ln(πkfk(x))=ln(πk)−(2pln(2π)+21ln(∣Σ∣))−21(x−μk)TΣ−1(x−μk)=xTΣ^μ^k−21μ^kTΣ^−1μ^k+lnπ^k
降维分类的思想理解线性判别分析
基于数据进行分类时,一个很自然的想法是:将高维的数据降维至一维,然后使用某个阈值将各个类别分开。下面用图的形式展示:
图中,数据的维度是二维的,我们的想法是把数据降维至一维,然后用阈值就能分类。我们希望降维后类内方差小,类间方差大,在计算机语言叫“松耦合,高内聚”。在做具体的推导之前,我们对数据的形式和一些基本统计量做一些描述:
特征
X
=
(
x
1
,
x
2
,
.
.
.
,
x
N
)
T
X = (x_1,x_2,...,x_N)^T
X=(x1,x2,...,xN)T,因变量
Y
=
(
y
1
,
y
2
,
.
.
.
,
y
N
)
T
,
其
中
,
y
i
∈
{
+
1
,
−
1
}
Y = (y_1,y_2,...,y_N)^T,\;\;其中,y_i \in \{+1,-1 \}
Y=(y1,y2,...,yN)T,其中,yi∈{+1,−1},类别c1的特征
X
c
1
=
{
x
i
∣
y
i
=
+
1
}
X_{c_1} = \{x_i|y_i=+1 \}
Xc1={xi∣yi=+1},同理,类别c2的特征
X
c
2
=
{
x
i
∣
y
i
=
−
1
}
X_{c_2} = \{x_i|y_i=-1 \}
Xc2={xi∣yi=−1},属于c1类别的数据个数为
N
1
N_1
N1,属于类别c2的数据个数为
N
2
N_2
N2,其中,
N
1
+
N
2
=
N
N_1+N_2 = N
N1+N2=N。
特征X投影在w方向至一维:
z
i
=
w
T
x
i
,
∣
∣
w
∣
∣
=
1
z_i = w^Tx_i,\;\;||w|| = 1
zi=wTxi,∣∣w∣∣=1
全样本投影的均值
z
ˉ
=
1
N
∑
i
=
1
N
z
i
=
1
N
∑
i
=
1
N
w
T
x
i
\bar{z} = \frac{1}{N}\sum\limits_{i=1}^{N}z_i = \frac{1}{N}\sum\limits_{i=1}^{N}w^Tx_i
zˉ=N1i=1∑Nzi=N1i=1∑NwTxi
全样本投影的协方差
S
z
=
1
N
∑
i
=
1
N
(
z
i
−
z
ˉ
)
(
z
i
−
z
ˉ
)
T
=
1
N
∑
i
=
1
N
(
w
T
x
i
−
z
ˉ
)
(
w
T
x
i
−
z
ˉ
)
T
S_z = \frac{1}{N}\sum\limits_{i=1}^{N}(z_i-\bar{z})(z_i-\bar{z})^T = \frac{1}{N}\sum\limits_{i=1}^{N}(w^Tx_i-\bar{z})(w^Tx_i-\bar{z})^T
Sz=N1i=1∑N(zi−zˉ)(zi−zˉ)T=N1i=1∑N(wTxi−zˉ)(wTxi−zˉ)T
c1样本投影的均值
z
1
ˉ
=
1
N
1
∑
i
=
1
N
1
z
i
=
1
N
1
∑
i
=
1
N
1
w
T
x
i
\bar{z_1} = \frac{1}{N_1}\sum\limits_{i=1}^{N_1}z_i = \frac{1}{N_1}\sum\limits_{i=1}^{N_1}w^Tx_i
z1ˉ=N11i=1∑N1zi=N11i=1∑N1wTxi
c1样本投影的协方差
S
z
1
=
1
N
1
∑
i
=
1
N
1
(
z
i
−
z
1
ˉ
)
(
z
i
−
z
1
ˉ
)
T
=
1
N
1
∑
i
=
1
N
1
(
w
T
x
i
−
z
1
ˉ
)
(
w
T
x
i
−
z
1
ˉ
)
T
S_{z_1} = \frac{1}{N_1}\sum\limits_{i=1}^{N_1}(z_i-\bar{z_1})(z_i-\bar{z_1})^T = \frac{1}{N_1}\sum\limits_{i=1}^{N_1}(w^Tx_i-\bar{z_1})(w^Tx_i-\bar{z_1})^T
Sz1=N11i=1∑N1(zi−z1ˉ)(zi−z1ˉ)T=N11i=1∑N1(wTxi−z1ˉ)(wTxi−z1ˉ)T
c2样本投影的均值
z
2
ˉ
=
1
N
2
∑
i
=
1
N
2
z
i
=
1
N
2
∑
i
=
1
N
2
w
T
x
i
\bar{z_2} = \frac{1}{N_2}\sum\limits_{i=1}^{N_2}z_i = \frac{1}{N_2}\sum\limits_{i=1}^{N_2}w^Tx_i
z2ˉ=N21i=1∑N2zi=N21i=1∑N2wTxi
c2样本投影的协方差
S
z
2
=
1
N
2
∑
i
=
1
N
2
(
z
i
−
z
2
ˉ
)
(
z
i
−
z
2
ˉ
)
T
=
1
N
2
∑
i
=
1
N
2
(
w
T
x
i
−
z
2
ˉ
)
(
w
T
x
i
−
z
2
ˉ
)
T
S_{z_2} = \frac{1}{N_2}\sum\limits_{i=1}^{N_2}(z_i-\bar{z_2})(z_i-\bar{z_2})^T = \frac{1}{N_2}\sum\limits_{i=1}^{N_2}(w^Tx_i-\bar{z_2})(w^Tx_i-\bar{z_2})^T
Sz2=N21i=1∑N2(zi−z2ˉ)(zi−z2ˉ)T=N21i=1∑N2(wTxi−z2ˉ)(wTxi−z2ˉ)T
类间差距:
(
z
ˉ
1
−
z
ˉ
2
)
2
(\bar{z}_1-\bar{z}_2)^2
(zˉ1−zˉ2)2
类内方差:
S
1
+
S
2
S_1 + S_2
S1+S2
由于线性判别分析的目标是同一类别内方差小,不同类别之间距离大,因此损失函数定义为:
J
(
w
)
=
(
z
ˉ
1
−
z
ˉ
2
)
2
s
1
+
s
2
=
w
T
(
x
ˉ
c
1
−
x
ˉ
c
2
)
(
x
ˉ
c
1
−
x
ˉ
c
2
)
T
w
w
T
(
s
c
1
+
s
c
2
)
w
w
^
=
a
r
g
m
a
x
w
J
(
w
)
J(w) = \frac{(\bar{z}_1-\bar{z}_2)^2}{s_1+s_2} = \frac{w^T(\bar{x}_{c_1}-\bar{x}_{c_2})(\bar{x}_{c_1}-\bar{x}_{c_2})^Tw}{w^T(s_{c_1}+s_{c_2})w}\\ \;\;\; \hat{w} = argmax_w\;J(w)
J(w)=s1+s2(zˉ1−zˉ2)2=wT(sc1+sc2)wwT(xˉc1−xˉc2)(xˉc1−xˉc2)Tww^=argmaxwJ(w)
记:
S
b
=
(
x
ˉ
c
1
−
x
ˉ
c
2
)
(
x
ˉ
c
1
−
x
ˉ
c
2
)
T
,
S
w
=
(
s
c
1
+
s
c
2
)
S_b = (\bar{x}_{c_1}-\bar{x}_{c_2})(\bar{x}_{c_1}-\bar{x}_{c_2})^T,\;S_w = (s_{c_1}+s_{c_2})
Sb=(xˉc1−xˉc2)(xˉc1−xˉc2)T,Sw=(sc1+sc2),因此
J
(
w
)
=
w
T
S
b
w
w
T
S
w
w
J(w) = \frac{w^TS_bw}{w^TS_ww}
J(w)=wTSwwwTSbw
让J(w)对w求导等于0,求出:
w
=
S
w
−
1
(
x
ˉ
c
1
−
x
ˉ
c
2
)
w = S_w^{-1}(\bar{x}_{c_1}-\bar{x}_{c_2})
w=Sw−1(xˉc1−xˉc2)
3.2 朴素贝叶斯:
在线性判别分析中,假设每种分类类别下的特征遵循同一个协方差矩阵,每两个特征之间是存在协方差的,因此在线性判别分析中各种特征是不是独立的。但是,朴素贝叶斯算法对线性判别分析作进一步的模型简化,它将线性判别分析中的协方差矩阵中的协方差全部变成0,只保留各自特征的方差,也就是朴素贝叶斯假设各个特征之间是不相关的。
朴素贝叶斯比线性判别分析模型的方差小,偏差大。虽然简化了模型,实际中使用朴素贝叶斯的案例非常多,甚至多于线性判别分析,例如鼎鼎大名的新闻分类,垃圾邮件分类等。
实战
# 线性判别分析
'''
参数:
solver:{'svd','lsqr','eigen'},默认='svd'
solver的使用,可能的值:
'svd':奇异值分解(默认)。不计算协方差矩阵,因此建议将此求解器用于具有大量特征的数据。
'lsqr':最小二乘解,可以与收缩结合使用。
'eigen':特征值分解,可以与收缩结合使用。
'''
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
lda_iris = LinearDiscriminantAnalysis()
lda_iris.fit(X,y)
lda_iris.score(X,y)
4. 决策树
与决策树回归大致是一样的,在回归问题中,选择分割点的标准是均方误差,但是在分类问题中,由于因变量是类别变量而不是连续变量 ,因此不能用均方误差作为分割点
对于分类树来说,给定一个观测值,因变量的预测值为它所属的终端结点内训练集的最常出现的类。与回归树一样,分类树也是采用递归二叉分裂,使用分类错误率作为分割点选择标砖。
分类错误率就是:此区域内的训练集中非常见类所占的类别,即:
E
=
1
−
m
a
x
k
(
p
^
m
k
)
E = 1-max_k(\hat{p}_{mk})
E=1−maxk(p^mk)
上式中的
p
^
m
k
\hat{p}_{mk}
p^mk代表第m个区域的训练集中第k类所占的比例。但是在大量的事实证明:分类错误率在构建决策树时不够敏感,一般在实际中用如下两个指标代替:
(1) 基尼系数:
G
=
∑
k
=
1
K
p
^
m
k
(
1
−
p
^
m
k
)
G = \sum\limits_{k=1}^{K} \hat{p}_{mk}(1-\hat{p}_{mk})
G=k=1∑Kp^mk(1−p^mk)
在基尼系数衡量的是K个类别的总方差。不难发现,如果所有的
p
^
m
k
\hat{p}_{mk}
p^mk的取值都接近0或者1,基尼系数会很小。因此基尼系数被视为衡量结点纯度的指标----如果他的取值小,那就意味着某个节点包含的观测值几乎来自同一个类别。
由基尼系数作为指标得到的分类树叫做:CART。
(2) 交叉熵:
D
=
−
∑
k
=
1
K
p
^
m
k
l
o
g
p
^
m
k
D = -\sum\limits_{k=1}^{K} \hat{p}_{mk}log\;\hat{p}_{mk}
D=−k=1∑Kp^mklogp^mk
显然,如果所有的
p
^
m
k
\hat{p}_{mk}
p^mk都接近于0或者1,那么交叉熵就会接近0。因此,和基尼系数一样,如果第m个结点的纯度越高,则交叉熵越小。事实证明,基尼系数和交叉熵在数值上时很接近的。
决策树分类算法的完整步骤:
a. 选择最优切分特征j以及该特征上的最优点s:
遍历特征j以及固定j后遍历切分点s,选择使得基尼系数或者交叉熵最小的(j,s)
b. 按照(j,s)分裂特征空间,每个区域内的类别为该区域内样本比例最多的类别。
c. 继续调用步骤1,2直到满足停止条件,就是每个区域的样本数小于等于5。
d. 将特征空间划分为J个不同的区域,生成分类树。
使用决策树算法来实现鸢尾花预测
# 使用决策树算法对iris分类:
'''
criterion:{“gini”, “entropy”}, default=”gini”
max_depth:树的最大深度。
min_samples_split:拆分内部节点所需的最少样本数
min_samples_leaf :在叶节点处需要的最小样本数。
'''
from sklearn.tree import DecisionTreeClassifier
tree_iris = DecisionTreeClassifier(min_samples_leaf=5)
tree_iris.fit(X,y)
tree_iris.score(X,y)
5. 支持向量机
5.1 线性支持向量机
支持向量机SVM是20世纪90年代在计算机界发展起来的一种分类算法,在许多问题中都被证明有较好的效果,被认为是适应性最广的算法之一。
支持向量机的基本原理非常简单,如图所视,白色和蓝色的点各为一类,我们的目标是找到一个分割平面将两个类别分开。为此我们需要找到最大间隔超平面,即找到一个分割平面距离最近的观测点最远。下面来严格推导:
我们根据距离超平米那最近的点,只要同时缩放w和b可以得到:
w
T
x
1
+
b
=
1
w^Tx_1 + b = 1
wTx1+b=1与
w
T
x
2
+
b
=
−
1
w^Tx_2+b = -1
wTx2+b=−1,因此:
w
T
x
1
+
b
=
1
w
T
x
2
+
b
=
−
1
(
w
T
x
1
+
b
)
−
(
w
T
x
2
+
b
)
=
2
w
T
(
x
1
−
x
2
)
=
2
w
T
(
x
1
−
x
2
)
=
∥
w
∥
2
∥
x
1
−
x
2
∥
2
cos
θ
=
2
∥
x
1
−
x
2
∥
2
cos
θ
=
2
∥
w
∥
2
d
1
=
d
2
=
∥
x
1
−
x
2
∥
2
cos
θ
2
=
2
∥
w
∥
2
2
=
1
∥
w
∥
2
d
1
+
d
2
=
2
∥
w
∥
2
\begin{array}{l} w^{T} x_{1}+b=1 \\ w^{T} x_{2}+b=-1 \\ \left(w^{T} x_{1}+b\right)-\left(w^{T} x_{2}+b\right)=2 \\ w^{T}\left(x_{1}-x_{2}\right)=2 \\ \qquad \begin{array}{l} w^{T}\left(x_{1}-x_{2}\right)=\|w\|_{2}\left\|x_{1}-x_{2}\right\|_{2} \cos \theta=2 \\ \left\|x_{1}-x_{2}\right\|_{2} \cos \theta=\frac{2}{\|w\|_{2}} \end{array} \\ \qquad \begin{array}{l} d_{1}=d_{2}=\frac{\left\|x_{1}-x_{2}\right\|_{2} \cos \theta}{2}=\frac{\frac{2}{\|w\|_{2}}}{2}=\frac{1}{\|w\|_{2}} \\ d_{1}+d_{2}=\frac{2}{\|w\|_{2}} \end{array} \end{array}
wTx1+b=1wTx2+b=−1(wTx1+b)−(wTx2+b)=2wT(x1−x2)=2wT(x1−x2)=∥w∥2∥x1−x2∥2cosθ=2∥x1−x2∥2cosθ=∥w∥22d1=d2=2∥x1−x2∥2cosθ=2∥w∥22=∥w∥21d1+d2=∥w∥22
由此可知道SVM模型的具体形式:
min
w
,
b
1
2
∥
w
∥
2
s.t.
y
(
i
)
(
w
T
x
(
i
)
+
b
)
≥
1
,
i
=
1
,
…
,
n
\begin{aligned} \min _{w, b} & \frac{1}{2}\|w\|^{2} \\ \text { s.t. } & y^{(i)}\left(w^{T} x^{(i)}+b\right) \geq 1, \quad i=1, \ldots, n \end{aligned}
w,bmin s.t. 21∥w∥2y(i)(wTx(i)+b)≥1,i=1,…,n
可以将约束条件写为: $g_{i}(w)=-y{(i)}\left(w{T} x^{(i)}+b\right)+1 \leq 0 $
可以将优化问题拉格朗日化
L
(
w
,
b
,
α
)
=
1
2
∥
w
∥
2
−
∑
i
=
1
n
α
i
[
y
(
i
)
(
w
T
x
(
i
)
+
b
)
−
1
]
\mathcal{L}(w, b, \alpha)=\frac{1}{2}\|w\|^{2}-\sum_{i=1}^{n} \alpha_{i}\left[y^{(i)}\left(w^{T} x^{(i)}+b\right)-1\right]
L(w,b,α)=21∥w∥2−i=1∑nαi[y(i)(wTx(i)+b)−1]
因此:
L
(
w
,
b
,
α
)
=
1
2
∥
w
∥
2
−
∑
i
=
1
n
α
i
[
y
(
i
)
(
w
T
x
(
i
)
+
b
)
−
1
]
\mathcal{L}(w, b, \alpha)=\frac{1}{2}\|w\|^{2}-\sum_{i=1}^{n} \alpha_{i}\left[y^{(i)}\left(w^{T} x^{(i)}+b\right)-1\right]
L(w,b,α)=21∥w∥2−i=1∑nαi[y(i)(wTx(i)+b)−1]
欲构造 dual 问题, 首先求拉格朗日化的问题中 $\mathrm{w} $ 和 $\mathrm{b} $ 的值, 对 $ \mathrm{w}$ 求梯度, 令梯度为 0, 可求得 w:
对 b 求梯度, 令梯度为 0, 可得:
∂
∂
b
L
(
w
,
b
,
α
)
=
∑
i
=
1
n
α
i
y
(
i
)
=
0
\frac{\partial}{\partial b} \mathcal{L}(w, b, \alpha)=\sum_{i=1}^{n} \alpha_{i} y^{(i)}=0
∂b∂L(w,b,α)=i=1∑nαiy(i)=0
将
w
\mathrm{w}
w 带入拉格朗日化的原问题可得
L
(
w
,
b
,
α
)
=
∑
i
=
1
n
α
i
−
1
2
∑
i
,
j
=
1
n
y
(
i
)
y
(
j
)
α
i
α
j
(
x
(
i
)
)
T
x
(
j
)
−
b
∑
i
=
1
n
α
i
y
(
i
)
L
(
w
,
b
,
α
)
=
∑
i
=
1
n
α
i
−
1
2
∑
i
,
j
=
1
n
y
(
i
)
y
(
j
)
α
i
α
j
(
x
(
i
)
)
T
x
(
j
)
\begin{array}{l} \mathcal{L}(w, b, \alpha)=\sum_{i=1}^{n} \alpha_{i}-\frac{1}{2} \sum_{i, j=1}^{n} y^{(i)} y^{(j)} \alpha_{i} \alpha_{j}\left(x^{(i)}\right)^{T} x^{(j)}-b \sum_{i=1}^{n} \alpha_{i} y^{(i)} \\ \mathcal{L}(w, b, \alpha)=\sum_{i=1}^{n} \alpha_{i}-\frac{1}{2} \sum_{i, j=1}^{n} y^{(i)} y^{(j)} \alpha_{i} \alpha_{j}\left(x^{(i)}\right)^{T} x^{(j)} \end{array}
L(w,b,α)=∑i=1nαi−21∑i,j=1ny(i)y(j)αiαj(x(i))Tx(j)−b∑i=1nαiy(i)L(w,b,α)=∑i=1nαi−21∑i,j=1ny(i)y(j)αiαj(x(i))Tx(j)
因此:
对拉格朗日化的原问题求最小值, 得到了
w
, 现在可以构造 dual 问題
max
α
W
(
α
)
=
∑
i
=
1
n
α
i
−
1
2
∑
i
,
j
=
1
n
y
(
i
)
y
(
j
)
α
i
α
j
⟨
x
(
i
)
,
x
(
j
)
⟩
s.t.
α
i
≥
0
,
i
=
1
,
…
,
n
∑
i
=
1
n
α
i
y
(
i
)
=
0
可以推导出 b的值为:
b
∗
=
−
max
i
:
y
(
i
)
=
−
1
w
∗
T
x
(
i
)
+
min
i
:
y
(
i
)
=
1
w
∗
T
x
(
i
)
2
SVM的决策子如下,值的符号为类别.
w
T
x
+
b
=
(
∑
i
=
1
n
α
i
y
(
i
)
x
(
i
)
)
T
x
+
b
=
∑
i
=
1
n
α
i
y
(
i
)
⟨
x
(
i
)
,
x
⟩
+
b
\begin{aligned} &\text { 对拉格朗日化的原问题求最小值, 得到了 } \mathrm{w} \text { , 现在可以构造 dual 问題 }\\ &\begin{aligned} \max _{\alpha} & W(\alpha)=\sum_{i=1}^{n} \alpha_{i}-\frac{1}{2} \sum_{i, j=1}^{n} y^{(i)} y^{(j)} \alpha_{i} \alpha_{j}\left\langle x^{(i)}, x^{(j)}\right\rangle \\ \text { s.t. } & \alpha_{i} \geq 0, \quad i=1, \ldots, n \\ & \sum_{i=1}^{n} \alpha_{i} y^{(i)}=0 \end{aligned}\\ &\text { 可以推导出 b的值为: } b^{*}=-\frac{\max _{i: y^{(i)}=-1} w^{* T} x^{(i)}+\min _{i: y^{(i)}=1} w^{* T} x^{(i)}}{2}\\ &\begin{array}{r} \text { SVM的决策子如下,值的符号为类别. } \\ \qquad w^{T} x+b=\left(\sum_{i=1}^{n} \alpha_{i} y^{(i)} x^{(i)}\right)^{T} x+b=\sum_{i=1}^{n} \alpha_{i} y^{(i)}\left\langle x^{(i)}, x\right\rangle+b \end{array} \end{aligned}
对拉格朗日化的原问题求最小值, 得到了 w , 现在可以构造 dual 问題 αmax s.t. W(α)=i=1∑nαi−21i,j=1∑ny(i)y(j)αiαj⟨x(i),x(j)⟩αi≥0,i=1,…,ni=1∑nαiy(i)=0 可以推导出 b的值为: b∗=−2maxi:y(i)=−1w∗Tx(i)+mini:y(i)=1w∗Tx(i) SVM的决策子如下,值的符号为类别. wTx+b=(∑i=1nαiy(i)x(i))Tx+b=∑i=1nαiy(i)⟨x(i),x⟩+b
5.2 非线性支持向量机
上面的向量机都是线性可分的,实际生活中更多的是非线性可分的
对于这种情况,我们的做法是将数据投影到更高的维度
上图中的一维数据做不到线性可分,但是将其投影到二维平面就线性可分了
Φ
:
X
↦
X
^
=
Φ
(
x
)
Φ
(
[
x
i
1
,
x
i
2
]
)
=
[
x
i
1
,
x
i
2
,
x
i
1
x
i
2
,
x
i
1
2
,
x
i
2
2
]
\begin{array}{l} \Phi: \mathcal{X} \mapsto \hat{\mathcal{X}}=\Phi(\mathbf{x}) \\ \Phi\left(\left[x_{i 1}, x_{i 2}\right]\right)=\left[x_{i 1}, x_{i 2}, x_{i 1} x_{i 2}, x_{i 1}^{2}, x_{i 2}^{2}\right] \end{array}
Φ:X↦X^=Φ(x)Φ([xi1,xi2])=[xi1,xi2,xi1xi2,xi12,xi22]
但是这种做法可能存在维度爆炸导致的计算量太大的问题。为了解决这个问题我们引入了核函数。
回顾线性可分SVM的优化目标函数:
m
i
n
⏟
α
1
2
∑
i
=
1
,
j
=
1
m
α
i
α
j
y
i
y
j
x
i
∙
x
j
−
∑
i
=
1
m
α
i
s
.
t
.
∑
i
=
1
m
α
i
y
i
=
0
0
≤
α
i
≤
C
\underbrace{ min }_{\alpha} \frac{1}{2}\sum\limits_{i=1,j=1}^{m}\alpha_i\alpha_jy_iy_jx_i \bullet x_j - \sum\limits_{i=1}^{m}\alpha_i\\ s.t. \; \sum\limits_{i=1}^{m}\alpha_iy_i = 0\\ 0 \leq \alpha_i \leq C
α
min21i=1,j=1∑mαiαjyiyjxi∙xj−i=1∑mαis.t.i=1∑mαiyi=00≤αi≤C
注意到上式低维特征仅仅以内积
x
i
∙
x
j
x_i \bullet x_j
xi∙xj 的形式出现,如果我们定义一个低维特征空间到高维特征空间的映射
ϕ
\phi
ϕ,将所有特征映射到一个更高的维度,让数据线性可分,我们就可以继续按前两篇的方法来优化目标函数,求出分离超平面和分类决策函数了。也就是说现在的SVM的优化目标函数变成:
min
⏟
α
1
2
∑
i
=
1
,
j
=
1
m
α
i
α
j
y
i
y
j
ϕ
(
x
i
)
∙
ϕ
(
x
j
)
−
∑
i
=
1
m
α
i
s.
t
.
∑
i
=
1
m
α
i
y
i
=
0
0
≤
α
i
≤
C
\begin{array}{c} \underbrace{\min }_{\alpha} \frac{1}{2} \sum_{i=1, j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j} \phi\left(x_{i}\right) \bullet \phi\left(x_{j}\right)-\sum_{i=1}^{m} \alpha_{i} \\ \text { s. } t . \sum_{i=1}^{m} \alpha_{i} y_{i}=0 \\ 0 \leq \alpha_{i} \leq C \end{array}
α
min21∑i=1,j=1mαiαjyiyjϕ(xi)∙ϕ(xj)−∑i=1mαi s. t.∑i=1mαiyi=00≤αi≤C
可以看到,和线性可分SVM的优化目标函数的区别仅仅是将内积
x
i
∙
x
j
x_i \bullet x_j
xi∙xj替换为
ϕ
(
x
i
)
∙
ϕ
(
x
j
)
\phi(x_i) \bullet \phi(x_j)
ϕ(xi)∙ϕ(xj)。我们要将其映射到超级高的维度来计算特征的内积。这时候映射成的高维维度是爆炸性增长的,这个计算量实在是太大了,而且如果遇到无穷维的情况,就根本无从计算了。下面引入核函数:
假设
ϕ
\phi
ϕ是一个从低维的输入空间
χ
\chi
χ(欧式空间的子集或者离散集合)到高维的希尔伯特空间的
H
\mathcal{H}
H映射。那么如果存在函数
K
(
x
,
z
)
K(x,z)
K(x,z),对于任意
x
,
z
∈
χ
x, z \in \chi
x,z∈χ,都有:
K
(
x
,
z
)
=
ϕ
(
x
)
∙
ϕ
(
z
)
K(x, z) = \phi(x) \bullet \phi(z)
K(x,z)=ϕ(x)∙ϕ(z)
那么我们就称
K
(
x
,
z
)
K(x, z)
K(x,z)为核函数。
仔细发现,
K
(
x
,
z
)
K(x, z)
K(x,z)的计算是在低维特征空间来计算的,它避免了高维特征空间恐怖的内积计算量。下面介绍几种常用的核函数:
核函数 | 作用 | 表达式 |
---|---|---|
多项式核函数(Polynomial Kernel) | 多项式核函数是线性不可分SVM常用的核函数之一 | K ( x i , x j ) = ( ⟨ x i , x j ⟩ + c ) d K\left(\mathbf{x}_{i}, \mathbf{x}_{j}\right)=\left(\left\langle\mathbf{x}_{i}, \mathbf{x}_{j}\right\rangle+c\right)^{d} K(xi,xj)=(⟨xi,xj⟩+c)d C用来控制低阶项的强度,C=0,d=1代表无核函数 |
高斯核函数(Gaussian Kernel) | 在SVM中也称为径向基核函数(Radial Basis Function,RBF),它是非线性分类SVM最主流的核函数。libsvm默认的核函数就是它 | K ( x i , x j ) = exp ( − ∥ x i − x j ∥ 2 2 2 σ 2 ) K\left(\mathbf{x}_{i}, \mathbf{x}_{j}\right)=\exp \left(-\frac{\left\|\mathbf{x}_{i}-\mathbf{x}_{j}\right\|_{2}^{2}}{2 \sigma^{2}}\right) K(xi,xj)=exp(−2σ2∥xi−xj∥22) 使用高斯核函数之前需要将特征标准化,因此这里衡量的是样本之间的相似度。 |
Sigmoid核函数(Sigmoid Kernel) | Sigmoid核函数也是线性不可分SVM常用的核函数之一 | K ( x i , x j ) = tanh ( α x i ⊤ x j + c ) K\left(\mathbf{x}_{i}, \mathbf{x}_{j}\right)=\tanh \left(\alpha \mathbf{x}_{i}^{\top} \mathbf{x}_{j}+c\right) K(xi,xj)=tanh(αxi⊤xj+c) 此时的SVM相当于没有隐藏层的简单神经网络。 |
余弦相似度核 | 常用于衡量两段文字的余弦相似度 | K ( x i , x j ) = x i ⊤ x j ∥ x i ∥ ∥ x j ∥ K\left(\mathbf{x}_{i}, \mathbf{x}_{j}\right)=\frac{\mathbf{x}_{i}^{\top} \mathbf{x}_{j}}{\left\|\mathbf{x}_{i}\right\|\left\|\mathbf{x}_{j}\right\|} K(xi,xj)=∥xi∥∥xj∥xi⊤xj |
使用SVM进行鸢尾花类别预测
注意:
- SVM=Support Vector Machine 是支持向量 机
- SVC=Support Vector Classification就是支持向量机用于 分类,
- SVR=Support Vector Regression.就是支持向量机用于 回归分析
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
svc_iris = make_pipeline(StandardScaler(), SVC(gamma='auto'))
svc_iris.fit(X, y)
svc_iris.score(X,y)
6.评估模型及调参
https://zhuanlan.zhihu.com/p/140040705
网格搜索和随机网格搜索,随机网格搜索是网格搜索的改进,大多数情况下能够提高效率
https://www.cnblogs.com/chenjx85/p/9430950.html
6.1 网格搜索调参
使用网格搜索进行调参
方式1 网格搜索GridSearchCV()
#使用网格搜索进行超参数调优
## 方式1 网格搜索GridSearchCV()
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC
import time
start_time = time.time()
pipe_svc = make_pipeline(StandardScaler(),SVC(random_state=1))
param_range = [0.0001,0.001,0.01,0.1,1.0,10.0,100.0,1000.0]
param_grid = [{'svc__C':param_range,'svc__kernel':['linear']},
{'svc__C':param_range,'svc__gamma':param_range,'svc__kernel':['rbf']}]
gs = GridSearchCV(estimator=pipe_svc,param_grid=param_grid,
scoring='accuracy',cv=10,n_jobs=-1)
gs = gs.fit(X,y)
end_time = time.time()
print("网格搜索经历时间:%.3f S" % float(end_time-start_time))
print(gs.best_score_)
print(gs.best_params_)
使用随机网格搜索进行调参
# 方式2 随机网格搜索
from sklearn.model_selection import RandomizedSearchCV
from sklearn.svm import SVC
import time
start_time = time.time()
pipe_svc = make_pipeline(StandardScaler(),SVC(random_state=1))
param_range = [0.0001,0.001,0.01,0.1,1.0,10.0,100.0,1000.0]
param_grid = [{'svc__C':param_range,'svc__kernel':['linear']},{'svc__C':param_range,'svc__gamma':param_range,'svc__kernel':['rbf']}]
# param_grid = [{'svc__C':param_range,'svc__kernel':['linear','rbf'],'svc__gamma':param_range}]
gs = RandomizedSearchCV(estimator=pipe_svc, param_distributions=param_grid,scoring='accuracy',cv=10,n_jobs=-1)
gs = gs.fit(X,y)
end_time = time.time()
print("随机网格搜索经历时间:%.3f S" % float(end_time-start_time))
print(gs.best_score_)
print(gs.best_params_)
时间上比网格搜索快一点
6.2 绘制混淆矩阵和ROC曲线
这里用的是乳腺癌数据集
http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/wdbc.data
乳腺癌数据集:569个恶性和良性肿瘤细胞的样本,M为恶性,B为良性
# 混淆矩阵:
# 加载数据
df = pd.read_csv("http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/wdbc.data",header=None)
'''
乳腺癌数据集:569个恶性和良性肿瘤细胞的样本,M为恶性,B为良性
'''
#做基本的数据处理
from sklearn.preprocessing import LabelEncoder
X=df.iloc[:,2:].values
y=df.iloc[:,1].values
le=LabelEncoder() #将M-B等字符编码成计算机能够识别的0-1
y=le.fit_transform(y)
le.transform(['M','B'])
#切分数据8:2
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,stratify=y,random_state=1)
#使用支持向量机进行预测
from sklearn.svm import SVC
pipe_svc=make_pipeline(StandardScaler(),SVC(random_state=1))
pipe_svc.fit(X_train,y_train)
y_pred=pipe_svc.predict(X_test)
#混淆矩阵
from sklearn.metrics import confusion_matrix
confmat=confusion_matrix(y_true=y_test,y_pred=y_pred)
print(confmat ) # 混淆矩阵结果
#绘制混淆矩阵
fig,ax = plt.subplots(figsize=(2.5,2.5))
ax.matshow(confmat, cmap=plt.cm.Blues,alpha=0.3)
for i in range(confmat.shape[0]):
for j in range(confmat.shape[1]):
ax.text(x=j,y=i,s=confmat[i,j],va='center',ha='center')
plt.xlabel('predicted label')
plt.ylabel('true label')
plt.show()
6.3 绘制ROC曲线
ROC的全称是“受试者工作特征”(Receiver Operating Characteristic)曲线,是非常重要和常见的统计分析方法。
ROC曲线
总的来看越是靠近ROC空间的左上角的点,其诊断效果越好
纵轴 | 真阳率TPR | 预测为正例且真实情况为正例的,占所有真实情况中正例的比率 | TPR=TP/(TP+FN) | 代表的是灵敏度,该指标越高代表诊断的准确率越高 |
横轴 | 假阳率FPR | 预测为正例但真实情况为反例的,占所有真实情况中反例的比率 | FPR=FP/(FP+TN) | 该指标越低就代表误判率越低 |
ROC曲线绘制步骤
- 假设已经得出一系列样本被划分为正类的概率Score值,按照大小排序。
- 从高到低,依次将“Score”值作为阈值threshold,当测试样本属于正样本的概率大于或等于这个threshold时,我们认为它为正样本,否则为负样本。举例来说,对于某个样本,其“Score”值为0.6,那么“Score”值大于等于0.6的样本都被认为是正样本,而其他样本则都认为是负样本。
- 每次选取一个不同的threshold,得到一组FPR和TPR,以FPR值为横坐标和TPR值为纵坐标,即ROC曲线上的一点。
- 根据3中的每个坐标点,画图。
几条线分析:
- 虚线y=x。在这条对角线上的点其实表示的是一个采用随机猜测策略的分类器对样本进行分类的结果,例如(0.5,0.5)就表示分类器随机对一半的样本猜测为正样本,另一半的样本为负样本的分类结果。
- 从图中可以直观地看出红线最靠近左上角的ROC曲线,即红线分类器的性能最好,其最佳临界点就是最靠近的左上角的A点。
- 相比于红线而言,黄线要差一点,我们可以在X轴上做一条垂线,经过红,黄两条线上的两个点,可以知道两个点的FPR值相同即两个方法此时的误判率相同;但是红线上点的TPR值大于黄线上的点,即红线方法的灵敏度大于黄线方法,这就意味着在这一点红线方法的准确率高于黄线方法。
- 蓝线这样的ROC曲线一般是不会出现的,因为ROC曲线基本都是在对角线之上的。硬要分析的话只能说蓝线方法实在是太糟糕了,以至于随机分类的正确率都要比该方法高。要是不幸得到蓝线的预测方法最简单解决办法就是正负预测结果反过来
【注意、ROC曲线之所以是从左下角到右上角,即ROC曲线单调递增是因为从保守分类到激进分类,其TPR与FPR都是上升的。这其实很好理解,你的标准越来越低,那么实际有病的人被诊断为有病的概率上升,但是原本将健康的人被判为有病的概率也升高。
#绘制ROC曲线
from sklearn.metrics import roc_curve,auc
from sklearn.metrics import make_scorer,f1_score
'''
make_scorer
从性能指标或损失函数中创建一个记分标准。
这个函数封装了用于GridSearchCV和cross_val_score的评分函数,它接受一个评分函数,如accuracy_score、mean_squared_error、adjusted_rand_index或average_precision,并返回一个可调用的值,该值对学习器的输出进行评分。
它的使用形式如下
sklearn.metrics.make_scorer(score_func, greater_is_better=True, needs_proba=False, needs_threshold=False, **kwargs)
'''
scorer=make_scorer(f1_score,pos_label=0)
gs=GridSearchCV(estimator=pipe_svc,param_grid=param_grid,scoring=scorer,cv=10)
y_pred = gs.fit(X_train,y_train).decision_function(X_test)
#计算真阳率和假阳率
fpr,tpr,threshold=roc_curve(y_test,y_pred)
#计算auc值
roc_auc=auc(fpr,tpr)
plt.figure()
lw=2
plt.figure(figsize=(7,5))
plt.plot(fpr, tpr, color='darkorange',
lw=lw, label='ROC curve (area = %0.2f)' % roc_auc) ###假阳率为横坐标,真阳率为纵坐标做曲线
plt.plot([0, 1], [0, 1], color='navy', lw=lw, linestyle='--')
plt.xlim([-0.05, 1.0])
plt.ylim([-0.05, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver operating characteristic ')
plt.legend(loc="lower right")
plt.show()