机器学习第三章-线性模型

最新推荐文章于 2024-10-15 11:02:22 发布

wastec

最新推荐文章于 2024-10-15 11:02:22 发布

阅读量1k

点赞数 16

文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/wastec/article/details/140619799

版权

3.1基本形式

线性模型试图学得一个通过属性的线性组合来进行预测的函数，即

向量形式为：

3.2线性回归

"线性回归" 试图学得一个线性模型以尽可能准确地预测实值输出标记.

线性回归试图学得：

衡量 f(x) 与y之间的差别来确定w和b，

均方误差是回归任务中最常用的性能度量，因此我们可试图让均方误差最小化，即

求解

称为线性回归模型的最小二乘"参数估计" 我们可将 E（w，b）分到求导，得到

从而得到w和b的最优解：

3.3对数几率回归

考虑二分类任务，输出标记 y ε{0 1} ，而线性回归模型产生的预测值

实值，于是我们需将实值z 转换为0/1 值. 最理想的是"单位跃函数"

即若预测值大于零就判为正例小于零则判为反例，预测值为临界值零则可任意判别，

近似单位阶跃函数，如对数几率函数：

来替代广义线性模型的g函数。那么可以得到线性回归函数为：

3.4线性判别分析

其思想非常朴素: 给定训练样例法将样例投影到一条直线上使得同样例的投影点尽可能接近、异类样例投影点能远离 ;在对新样本进行分类时，将其投影到同样的这条直线上，再根据投影点的位置来确定新样本的类别.

令 $\chi _i$ 、 $\mu _i$ 和 $\Sigma _i$ 表示第i类示例的集合、均值向量、协方差矩阵。将数据投影到直线w上，同时考虑协方差尽可能大和类中心的距离也尽可能大，那么可以得到欲最大化的目标：

当两类数据同先验、满足高斯分布且协方差相等时， LDA 可达到最优分类.

其中 u 是所有示例的均值向量

3.5多分类学习

不夫一般性，考虑 N 个类别C1,C2,C3.....,CN多分类学习的基本思路是 "拆解法飞即将多分类任务拆为若干个二分类任务求解.具体来说，先对问题进行拆分，然后为拆出的每个二分类任务训练一个分类器;

最经典的拆分策略有三种. "一对一" OvO ",一对其余" OvR 和"多对多" MvM.

OvO 将这 N 个类别两两配对从而产生 N(N 1)/2 个三分类任务，例如 OvO 将为区分类别 Ci，Cj 训练个分类器，该分类器把 D中的Ci 类样例作为正例，Cj作为反例。

OvR 则是每次将一个类的样例作为正例、所有其他类的样例作为反例来训练N 个分类器.

MvM 是每次将若干个类作为正类，若干个其他类作为反类.

3.6类别不平衡问题

类别不平衡就是指分类任务中不同类别的训练样例数目差别很大的情况。
特点：

1.不均衡的类别分布：某些类别的样本数量明显少于其他类别。例如，在医疗诊断中，罕见病的患者比例可能非常低，而正常人的比例较高。
2.影响模型性能：大多数机器学习算法在处理不平衡数据时可能会表现出偏向于多数类的倾向，因为算法通常倾向于最小化错误率。这导致模型可能会偏向于预测多数类别，而忽略少数类别。
3.评估指标偏差：传统的评估指标如准确率（Accuracy）可能会误导，因为即使模型只预测多数类别，也可能获得高准确率。因此，需要使用更合适的评估指标如精确率（Precision）、召回率（Recall）、F1分数等来评估模型在不同类别上的表现。

解决方法：

1.重采样方法：包括过采样少数类别样本和欠采样多数类别样本
2.算法调整：调整算法参数或使用专门设计用于处理不平衡数据的算法
3.改变决策阈值：通过调整分类器的决策阈值，使其更倾向于对少数类别进行正确分类。
4.生成合成数据：使用生成模型（如GANs）生成更多的少数类别样本。
5.层级分类：将多个少数类别合并为一个类别，从而减少类别的数量，使得问题变得更平衡。