机器学习第3章线性模型-CSDN博客

本文链接：https://blog.csdn.net/qq_55871320/article/details/141166622

3.1基本形式

线性模型试图学得一个通过属性的线性组合来进行预测的函数，即 $f\left( \mathbf{x}\right) = {w}_{1}{x}_{1} + {w}_{2}{x}_{2} + \ldots + {w}_{d}{x}_{d} + b$ ,其中 $x_{i}$ 是 $x$ 在第 $i$ 个属性上的取值。一般采取向量形式表示上式，即 $f\left( \mathbf{x}\right) ={\mathbf{w}}^{\mathrm{T}}\mathbf{x} + b$ ,其中， $w=(w_{1};w_{2};...;w_{d} )$ ,只需确定w和b这两参数的值，该模型就已算确定了。

3.2 线性回归

给定数据集
$\left\{ {\left( {{\mathbf{x}}_{1},{y}_{1}}\right) ,\left( {{\mathbf{x}}_{2},{y}_{2}}\right) ,\ldots ,\left( {{\mathbf{x}}_{m},{y}_{m}}\right) }\right\} ,$
其中， $x_{i} =(x_{i1};x_{i2};...;x_{id}),y_{i} \in R$ ,线性回归试图学得 $f(x_{i})=wx_{i}+b$ ,使得 $f(x_{i})\simeq y_{i}$ ,通过下面公式可确定w和b的取值
$\left( {{w}^{ * },{b}^{ * }}\right) = \underset{\left( w,b\right) }{\arg \min }\mathop{\sum }\limits_{{i = 1}}^{m}{\left( f\left( {x}_{i}\right) - {y}_{i}\right) }^{2}$
$\underset{\left( w,b\right) }{\arg \min }\mathop{\sum }\limits_{{i = 1}}^{m}{\left( {y}_{i} - w{x}_{i} - b\right) }^{2}.$
求解w和b使 ${E}_{\left( w,b\right) } = \mathop{\sum }\limits_{{i = 1}}^{m}{\left( {y}_{i} - w{x}_{i} - b\right) }^{2}$ 最小化的过程，称为线性回归模型的最小二乘"参数估计"。
为便于观察，可将线性回归模型简写为 $y=w^{T}x+b$ ,对数线性回归是 $ln_{}{y} =w^{T}x+b$
如下图所示在这里插入图片描述

3.3 对数几率回归

考虑二分类任务，其输出标记 $y\in \left \{ 0,1 \right \}$ ，而线性回归模型产生的预测值
$z = w^{T} x+b$ 是实值，我们需将实值z转换为0/1值,进而形成下面“阶跃函数”
$\left\{ \begin{matrix} 0, & z < 0; \\ {0.5}, & z = 0; \\ 1, & z > 0, \end{matrix}\right.$
如下图所示在这里插入图片描述
但是上面函数并不连续，可用下面函数代替 $\frac{1}{1 + {e}^{-z}}$ ，代入 $z = w^{T} x+b$ 即得 $\frac{1}{1 + {e}^{- （w^{T} x+b）}}$

3.4 线性判别分析（LDA）

LDA 的思想非常朴素: 给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时，将其投影到同样的这条直线上，再根据投影点的位置来确定新样本的类别. 下图给出了一个二维示意图。
在这里插入图片描述

3.5 多分类学习

多分类学习是指在机器学习任务中，模型需要将输入数据分配到多个类别中的一种学习任务。与二分类问题（只有两个类别）不同，多分类问题涉及三个或更多的类别。多分类学习的常见应用包括图像识别（如识别不同种类的动物）、文本分类（如新闻分类）等。

1. 多分类学习的常见方法
1、Softmax 回归：这是多分类问题中最常用的线性模型之一。它通过对每个类别的得分应用 Softmax 函数，将得分转换为概率分布。
2、决策树和随机森林：这些模型可以自然地处理多分类问题，每个叶子节点对应一个类别。
3、支持向量机（SVM）：虽然 SVM 最初是为二分类设计的，但可以通过一对多或一对一的方法扩展到多分类问题。
4、神经网络：深度学习模型（如卷积神经网络）在多分类任务中表现优异，通常使用 Softmax 激活函数作为输出层。

2. 评估指标
在多分类问题中，常用的评估指标包括：
1、准确率（Accuracy）：正确分类的样本占总样本的比例。
2、精确率（Precision）、召回率（Recall）和 F1-score：这些指标特别适用于类别不平衡的情况，能够更好地反映模型在各个类别上的表现。
3、混淆矩阵：用来可视化分类模型的性能，显示模型在每个类别上的预测情况。

3.6 类别不平衡问题

类别不平衡问题是指在分类任务中，某些类别的样本数量远远少于其他类别。这种不平衡会导致模型在训练时偏向于样本数量较多的类别，从而影响模型的预测性能。
1. 类别不平衡的影响
1、模型偏倚：模型可能会倾向于预测占多数的类别，而忽视少数类别，导致少数类别的召回率低。
2、评估指标失真：在类别不平衡的情况下，仅依赖准确率可能会误导判断。例如，99% 的准确率可能只是因为模型总是预测多数类别。

2. 处理类别不平衡的方法
重采样技术：

1、过采样（Oversampling）：增加少数类别样本的数量，常用的方法有 SMOTE（合成少数类过采样技术）。
2、欠采样（Undersampling）：减少多数类别样本的数量，以平衡各类别的样本数。

使用不同的评估指标：如前所述，精确率、召回率和 F1-score 更能反映模型在不平衡数据集上的表现。

调整分类阈值：通过调整模型的决策阈值，可以改善少数类别的预测性能。

代价敏感学习：为不同类别的错误分类设定不同的代价，使模型在训练时更加重视少数类别。

集成方法：使用集成学习方法（如随机森林、Boosting）可以在一定程度上缓解类别不平衡问题。