复习笔记——西北工业大学模式识别与机器学习

最新推荐文章于 2024-02-02 13:14:16 发布

*ACoder*

最新推荐文章于 2024-02-02 13:14:16 发布

阅读量961

点赞数 9

本文链接：https://blog.csdn.net/FSAHFGSADHSAKNDAS/article/details/117959365

版权

本文是关于西北工业大学模式识别与机器学习的复习笔记，涵盖了线性分类器、决策树、支持向量机SVM、聚类和神经网络等多个主题。线性分类器包括线性感知机和LMSE，决策树涉及熵、信息增益和剪枝策略，SVM讲解了最大间隔和核函数，而神经网络介绍了多层前馈网络和反向传播算法。此外，还提及了特征提取与选择和贝叶斯统计决策理论的基本概念。

摘要由CSDN通过智能技术生成

因为这是一边复习一边写成的东西，注意力不太集中。所以可能会有一些错误，欢迎批评指正。

机器学习的三个步骤：定义一个函数集合(模型)、定义函数好坏的衡量指标(策略)、选择最好的函数(优化方法)

线性分类器

线性分类器：

二分类，根据g(x)>0和g(x)<0判断属于哪类

多分类：用多个二分类（一对一，一对其余，多对多）。一对其余会造成有些区域的点不属于任何一类。一对一的不可分区域比前者小。一对其余需要更多的训练时间和较少的测试时间且分类器是r个，一对一需要较多的测试时间和较少的训练时间且分类器是r(r-1)/2个。

线性感知机：

定义 $g(X) = W^TX$ ，本来是有的 $g (X) > 0$ 有的 $g (X) < 0$ ，现在把 $g (X) < 0$ 的 $X$ 取反。问题就变成让所有的 $g (X) > 0$ 。

损失函数 $\frac{1}{2}(|W^TX|-W^TX)$ ，显然 $J (W, X) > 0$ 的时候损失为 $0$ ，而 $J (W, X) < 0$ 的时候损失和 $W^TX|$ 成正比。

$C\frac{\partial J}{\partial X} = W(k) - C(Xsign(W^TX)-X)$ ，回到问题本身就会发现这

个是说当 $g (X)$ 的符号和预期不符的时候给予惩罚。

LMSE(Least Mean Square Error)：

相比普通线性感知机的好处是，可以判断线性不可分。

原先是 $W^TX>0$ ，现在把问题变成 $W^TX = b$ ，其中 $b > 0$ ，损失函数是 $J=\sum||W^TX_i-b|| = ||XW-b||$ 。（最后一个式子里的X表示一个矩阵，下同）

求偏导， $\frac{\partial J}{\partial W} = X^T(XW-b)=0$ ，得 $W=(X^TX)^{-1}X b=X^\#b$ 。

$\frac{\partial J}{\partial b}=XW-b$ ，理论上应该 $b (k + 1) = b (k) - C (X W - b (k))$ ，但是为了避免 $b (k + 1)$ 变成负值，要把 $X W - b (k)$ 的每个分量和 $0$ 取 $m i n$ 。也就是 $-\frac{1}{2}((XW-b)+|Xw-b|)=E(k)$ ，这里绝对值号表示对所有分量取绝对值。收敛的条件是 $E (k)$ 为全 $0$ 。