3.1基本形式
线性模型试图学得一个通过属性的线性组合来进行预测的函数,即 f ( x ) = w 1 x 1 + w 2 x 2 + … + w d x d + b f\left( \mathbf{x}\right) = {w}_{1}{x}_{1} + {w}_{2}{x}_{2} + \ldots + {w}_{d}{x}_{d} + b f(x)=w1x1+w2x2+…+wdxd+b,其中 x i x_{i} xi是 x x x在第 i i i个属性上的取值。一般采取向量形式表示上式,即 f ( x ) = w T x + b f\left( \mathbf{x}\right) ={\mathbf{w}}^{\mathrm{T}}\mathbf{x} + b f(x)=wTx+b,其中, w = ( w 1 ; w 2 ; . . . ; w d ) w=(w_{1};w_{2};...;w_{d} ) w=(w1;w2;...;wd),只需确定w和b这两参数的值,该模型就已算确定了。
3.2 线性回归
给定数据集
D
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
…
,
(
x
m
,
y
m
)
}
,
D = \left\{ {\left( {{\mathbf{x}}_{1},{y}_{1}}\right) ,\left( {{\mathbf{x}}_{2},{y}_{2}}\right) ,\ldots ,\left( {{\mathbf{x}}_{m},{y}_{m}}\right) }\right\} ,
D={(x1,y1),(x2,y2),…,(xm,ym)},
其中,
x
i
=
(
x
i
1
;
x
i
2
;
.
.
.
;
x
i
d
)
,
y
i
∈
R
x_{i} =(x_{i1};x_{i2};...;x_{id}),y_{i} \in R
xi=(xi1;xi2;...;xid),yi∈R,线性回归试图学得
f
(
x
i
)
=
w
x
i
+
b
f(x_{i})=wx_{i}+b
f(xi)=wxi+b,使得
f
(
x
i
)
≃
y
i
f(x_{i})\simeq y_{i}
f(xi)≃yi,通过下面公式可确定w和b的取值
(
w
∗
,
b
∗
)
=
arg
min
(
w
,
b
)
∑
i
=
1
m
(
f
(
x
i
)
−
y
i
)
2
\left( {{w}^{ * },{b}^{ * }}\right) = \underset{\left( w,b\right) }{\arg \min }\mathop{\sum }\limits_{{i = 1}}^{m}{\left( f\left( {x}_{i}\right) - {y}_{i}\right) }^{2}
(w∗,b∗)=(w,b)argmini=1∑m(f(xi)−yi)2
=
arg
min
(
w
,
b
)
∑
i
=
1
m
(
y
i
−
w
x
i
−
b
)
2
.
= \underset{\left( w,b\right) }{\arg \min }\mathop{\sum }\limits_{{i = 1}}^{m}{\left( {y}_{i} - w{x}_{i} - b\right) }^{2}.
=(w,b)argmini=1∑m(yi−wxi−b)2.
求解w和b使
E
(
w
,
b
)
=
∑
i
=
1
m
(
y
i
−
w
x
i
−
b
)
2
{E}_{\left( w,b\right) } = \mathop{\sum }\limits_{{i = 1}}^{m}{\left( {y}_{i} - w{x}_{i} - b\right) }^{2}
E(w,b)=i=1∑m(yi−wxi−b)2最小化的过程,称为线性回归模型的最小二乘"参数估计"。
为便于观察,可将线性回归模型简写为
y
=
w
T
x
+
b
y=w^{T}x+b
y=wTx+b,对数线性回归是
ln
y
=
w
T
x
+
b
\ln_{}{y} =w^{T}x+b
lny=wTx+b
如下图所示
3.3 对数几率回归
考虑二分类任务, 其输出标记
y
∈
{
0
,
1
}
y\in \left \{ 0,1 \right \}
y∈{0,1},而线性回归模型产生的预测值
z
=
w
T
x
+
b
z = w^{T} x+b
z=wTx+b是实值,我们需将实值z转换为0/1值,进而形成下面“阶跃函数”
y
=
{
0
,
z
<
0
;
0.5
,
z
=
0
;
1
,
z
>
0
,
y = \left\{ \begin{matrix} 0, & z < 0; \\ {0.5}, & z = 0; \\ 1, & z > 0, \end{matrix}\right.
y=⎩
⎨
⎧0,0.5,1,z<0;z=0;z>0,
如下图所示
但是上面函数并不连续,可用下面函数代替
y
=
1
1
+
e
−
z
y = \frac{1}{1 + {e}^{-z}}
y=1+e−z1,代入
z
=
w
T
x
+
b
z = w^{T} x+b
z=wTx+b即得
y
=
1
1
+
e
−
(
w
T
x
+
b
)
y = \frac{1}{1 + {e}^{- (w^{T} x+b)}}
y=1+e−(wTx+b)1
3.4 线性判别分析(LDA)
LDA 的思想非常朴素: 给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别. 下图给出了一个二维示意图。
3.5 多分类学习
多分类学习是指在机器学习任务中,模型需要将输入数据分配到多个类别中的一种学习任务。与二分类问题(只有两个类别)不同,多分类问题涉及三个或更多的类别。多分类学习的常见应用包括图像识别(如识别不同种类的动物)、文本分类(如新闻分类)等。
1. 多分类学习的常见方法
1、Softmax 回归:这是多分类问题中最常用的线性模型之一。它通过对每个类别的得分应用 Softmax 函数,将得分转换为概率分布。
2、决策树和随机森林:这些模型可以自然地处理多分类问题,每个叶子节点对应一个类别。
3、支持向量机(SVM):虽然 SVM 最初是为二分类设计的,但可以通过一对多或一对一的方法扩展到多分类问题。
4、神经网络:深度学习模型(如卷积神经网络)在多分类任务中表现优异,通常使用 Softmax 激活函数作为输出层。
2. 评估指标
在多分类问题中,常用的评估指标包括:
1、准确率(Accuracy):正确分类的样本占总样本的比例。
2、精确率(Precision)、召回率(Recall)和 F1-score:这些指标特别适用于类别不平衡的情况,能够更好地反映模型在各个类别上的表现。
3、混淆矩阵:用来可视化分类模型的性能,显示模型在每个类别上的预测情况。
3.6 类别不平衡问题
类别不平衡问题是指在分类任务中,某些类别的样本数量远远少于其他类别。这种不平衡会导致模型在训练时偏向于样本数量较多的类别,从而影响模型的预测性能。
1. 类别不平衡的影响
1、模型偏倚:模型可能会倾向于预测占多数的类别,而忽视少数类别,导致少数类别的召回率低。
2、评估指标失真:在类别不平衡的情况下,仅依赖准确率可能会误导判断。例如,99% 的准确率可能只是因为模型总是预测多数类别。
2. 处理类别不平衡的方法
重采样技术:
1、过采样(Oversampling):增加少数类别样本的数量,常用的方法有 SMOTE(合成少数类过采样技术)。
2、欠采样(Undersampling):减少多数类别样本的数量,以平衡各类别的样本数。
使用不同的评估指标:如前所述,精确率、召回率和 F1-score 更能反映模型在不平衡数据集上的表现。
调整分类阈值:通过调整模型的决策阈值,可以改善少数类别的预测性能。
代价敏感学习:为不同类别的错误分类设定不同的代价,使模型在训练时更加重视少数类别。
集成方法:使用集成学习方法(如随机森林、Boosting)可以在一定程度上缓解类别不平衡问题。