1支持向量机
问题1:在空间上线性可分的两类点,分别向SVM分类的超平面上做投影,这些点在超平面上的投影仍然是线性可分的吗?
~~~~~~~
不是线性可分的e
~~~~~~~
一个使用高斯核
K
(
x
,
z
)
=
e
−
∥
x
−
z
∥
2
r
2
2
σ
2
K(x,z)=e^{-\frac{{\begin{Vmatrix}x-z\end{Vmatrix}^\frac{2}{r^2}}}{2\sigma^2}}
K(x,z)=e−2σ2∥x−z∥r22训练的SVM中,试证明若给定训练集中不存在两个点的同一位置,则存在一组参数{
α
1
,
.
.
.
,
α
m
,
b
\alpha_1,...,\alpha_m,b
α1,...,αm,b}以及参数
γ
\gamma
γ使得该SVM的训练误差为0。
~~~~~~~
根据SVM的原理,我们可以将SVM的预测公式可写为
f
(
x
)
=
∑
i
=
1
m
α
i
y
(
i
)
K
(
x
(
i
)
,
x
)
+
b
f(x)=\sum_{i=1}^m\alpha_iy^{(i)}K(x^{(i)},x)+b
f(x)=i=1∑mαiy(i)K(x(i),x)+b
其中
(
(
x
(
1
)
,
y
(
1
)
)
,
.
.
.
.
.
,
(
x
(
m
)
,
y
(
m
)
)
)
((x^{(1)},y^{(1)}),.....,(x^{(m)},y^{(m)}))
((x(1),y(1)),.....,(x(m),y(m)))为训练样本,而{
α
1
,
.
.
.
,
α
m
,
b
\alpha_1,...,\alpha_m,b
α1,...,αm,b}以及高斯核参数
γ
\gamma
γ为训练样本的参数。由于不存在两个点在同一位置,因此对于任意的
i
≠
j
{i\neq{j}}
i=j,有
x
(
i
)
−
x
(
j
)
≥
ϵ
x^{(i)}-x^{(j)}\geq\epsilon
x(i)−x(j)≥ϵ我们可以对任意i,固定
α
i
=
1
\alpha_i=1
αi=1以及b=0,只保留参数
γ
\gamma
γ,则有
f
(
x
)
=
∑
i
=
1
m
α
i
y
(
i
)
K
(
x
(
i
)
,
x
)
+
b
=
∑
i
=
1
m
y
(
i
)
K
(
x
(
i
)
,
x
)
=
∑
i
=
1
m
y
(
i
)
e
−
∥
x
−
x
(
i
)
∥
2
γ
2
f(x)=\sum_{i=1}^m\alpha_iy^{(i)}K(x^{(i)},x)+b\\ =\sum_{i=1}^my^{(i)}K(x^{(i)},x)~~~~\\ =\sum_{i=1}^my^{(i)}e^{-\frac{\begin{Vmatrix}x-x^{(i)}\end{Vmatrix}^2}{\gamma^2}}
f(x)=i=1∑mαiy(i)K(x(i),x)+b=i=1∑my(i)K(x(i),x) =i=1∑my(i)e−γ2∥x−x(i)∥2
问题3:训练误差为0的SVM分类器一定存在吗?
问题4:加入松弛变量的SVM的训练误差可以为0吗?
2逻辑回归
知识点:逻辑回归,线性回归,多标签分类,Softmax
问题1:逻辑回归相比于线性回归,有何异同?
~~~~~~~
首先,逻辑回归处理的是分类问题,线性回归处理的是回归问题,这是两者的最本质的区别。逻辑回归中,因变量取值是一个二元分布,模型学习得出的是
E
[
y
∣
x
;
θ
]
E[y|x;\theta]
E[y∣x;θ],即给定自变量和超参数后,得到因变量的期望,并基于此期望来处理预测分类问题。而线性回归中实际上求解的是
y
′
=
θ
T
x
y^\prime=\theta^Tx
y′=θTx,是对我们假设的真实关系
y
=
θ
T
x
+
ϵ
y=\theta^Tx+\epsilon
y=θTx+ϵ的一个近似,其中
ϵ
\epsilon
ϵ代表误差项,我们使用这个近似项来处理回归问题。
~~~~~~~
在关于逻辑回归的讨论中,我们均认为y是因变量,而非
p
1
−
p
\frac{p}{1-p}
1−pp,这便引出逻辑回归与线性回归最大的区别,即逻辑回归中的因变量为离散的,而线性回归中的因变量是连续的。并且在自变量x与超参数θ确定的情况下,逻辑回归可以看作广义线性模型在因变量y服从二元分布时的一个特殊情况;而使用最小二乘法求解线性回归时,我们认为因变量y服从正态分布。
~~~~~~~
当然逻辑回归和线性回归也不乏相同之处,首先我们可以认为二者都使用了极大似然估计来对训练样本进行建模。另外,二者在求解超参数的过程中,都可以使用梯度下降的方法,这也是监督学习中一个常见的相似之处
问题2:当使用逻辑回归处理多标签的分类问题时,有哪些常见做法,分别应用于哪些场景,它们之间又有怎样的关系?
~~~~~~~
当存在样本可能属于多个标签的情况时,我们可以训练k个二分类的逻辑回归分类器。第i个分类器用以区分每个样本是否可以归为第i类,训练该分类器时,需要把标签重新整理为“第i类标签”与“非第i类标签”两类。通过这样的办法,我们就解决了每个样本可能拥有多个标签的情况。
3决策树
问题1:决策树有哪些常用的启发函数?
ID3-最大信息增益
C4.5-最大信息增益比
CART-最大基尼指数
~~~~~~~
ID3是采用信息增益作为评价标准,除了“会写代码”这一逆天特征外,会倾向于取值较多的特征。因为,信息增益反映的是给定条件以后不确定性减少的程度,特征取值越多就意味着确定性更高,也就是条件熵越小,信息增益越大。这在实际应用中是一个缺陷。比如,我们引入特征“DNA”,每个人的DNA都不同,如果ID3按照“DNA”特征进行划分一定是最优的(条件熵为0),但这种分类的泛化能力是非常弱的。因此,C4.5实际上是对ID3进行优化,通过引入信息增益比,一定程度上对取值比较多的特征进行惩罚,避免ID3出现过拟合的特性,提升决策树的泛化能力。
~~~~~~~
其次,从样本类型的角度,ID3只能处理离散型变量,而C4.5和CART都可以处理连续型变量。C4.5处理连续型变量时,通过对数据排序之后找到类别不同的分割线作为切分点,根据切分点把连续属性转换为布尔型,从而将连续型变量转换多个取值区间的离散型变量。而对于CART,由于其构建时每次都会对特征进行二值划分,因此可以很好地适用于连续性变量。
~~~~~~~
从应用角度,ID3和C4.5只能用于分类任务,而CART(Classification and Regression Tree,分类回归树)从名字就可以看出其不仅可以用于分类,也可以应用于回归任务(回归树使用最小平方误差准则)。
~~~~~~~
此外,从实现细节、优化过程等角度,这三种决策树还有一些不同。比如,ID3对样本特征缺失值比较敏感,而C4.5和CART可以对缺失值进行不同方式的处理;ID3和C4.5可以在每个结点上产生出多叉分支,且每个特征在层级之间不会复用,而CART每个结点只会产生两个分支,因此最后会形成一颗二叉树,且每个特征可以被重复使用;ID3和C4.5通过剪枝来权衡树的准确性与泛化能力,而CART直接利用全部数据发现所有可能的树结构进行对比。
问题2:如何对决策树进行剪枝?
~~~~~~~
决策树的剪枝通常有两种方法,预剪枝(Pre-Pruning)和后剪枝(Post-Pruning)。那么这两种方法是如何进行的呢?它们又各有什么优缺点?
~~~~~~~
预剪枝,即在生成决策树的过程中提前停止树的增长。而后剪枝,是在已生成的过拟合决策树上进行剪枝,得到简化版的剪枝决策树
- 预剪枝
~~~~~~~ 预剪枝的核心思想是在树中结点进行扩展之前,先计算当前的划分是否能带来模型泛化能力的提升,如果不能,则不再继续生长子树。此时可能存在不同类别的样本同时存于结点中,按照多数投票的原则判断该结点所属类别。预剪枝对于何时停止决策树的生长有以下几种方法。
- 后剪枝
~~~~~~~ 后剪枝的核心思想是让算法生成一棵完全生长的决策树,然后从最底层向上计算是否剪枝。剪枝过程将子树删除,用一个叶子结点替代,该结点的类别同样按照多数投票的原则进行判断。同样地,后剪枝也可以通过在测试集上的准确率进行判断,如果剪枝过后准确率有所提升,则进行剪枝。相比于预剪枝,后剪枝方法通常可以得到泛化能力更强的决策树,但时间开销会更大