支持向量机（一）

最新推荐文章于 2024-09-14 22:05:28 发布

RookieFCB

最新推荐文章于 2024-09-14 22:05:28 发布

阅读量314

点赞数

分类专栏： Andrew NG机器学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013058162/article/details/78340052

版权

Andrew NG机器学习笔记专栏收录该内容

56 篇文章 3 订阅

订阅专栏

支持向量机（Support Vector Machines，简称SVM）是一种二类分类模型。它在一些情况下，对于一些复杂的非线性问题能提供相比逻辑回归模型或神经网络模型更为简洁的解决方案。

优化目标

我们通过不断改进逻辑回归模型以实现支持向量机。

逻辑回归模型的假设函数h_θ(x)为：

其中：

当y = 1时，我们希望h_θ(x) ≈ 1，即θ^Tx >> 0；
当y = 0时，我们希望h_θ(x) ≈ 0，即θ^Tx << 0；

其代价函数J(θ)为：

现假设在单个训练数据下，其代价函数J(θ)为：

将假设函数h_θ(x)代入，则代价函数J(θ)为：

对于y = 1和y = 0这两种情况，我们可分别绘制出如下函数图：

在上图基础上，我们分别取z = 1和z = -1两个点，绘制如下曲线：

其中，图中紫红色曲线为支持向量机在y = 1和y = 0时的代价函数与变量z之间的函数关系图。

现在我们以正则化的逻辑回归为例得出支持向量机的代价函数。

正则化的逻辑回归的代价函数J(θ)为：

根据函数图我们可得支持向量机的代价函数J(θ)为：

其中，C为一常数，类似于正则化的逻辑回归中的λ。

同时，支持向量机的假设函数h_θ(x)为：

初识最大间隔分类器（支持向量机）

支持向量机的假设函数h_θ(x)为：

但支持向量机要求更高，其不仅仅要正确分开输入的样本，即不仅仅要求θ^Tx ≥ 0（或θ^Tx ≤ 0），更要求θ^Tx ≥ 1（或θ^Tx ≤ -1），即额外添加了一个安全因子（或安全间距）。

因此，对于y = 1和y = 0这两个情况，可做如下改写：

当y = 1时，θ^Tx ≥ 1
当y = 0时，θ^Tx ≤ -1

基于此，我们可将代价函数J(θ)改写为：

其中，此时常数C为一个非常大的数。

此时，对于下图支持向量机会如何作出判定边界？

下图中的黑色线条即为支持向量机所作出的判定边界，它并不会以紫红色或绿色线条作为判定边界。这是因为支持向量机会尝试找到一个与样本之间有着最大间隔的判定边界，因此支持向量机也称为最大间隔分类器。

最后，我们来讨论一下常数C的取值。

从上图中，我们可以发现常数C的值若非常大，则会考虑数据集中的异常数据；而常数C的值若适中，则会忽略数据集中的异常数据，得到一个较为合适的判定边界。

当C = 1/λ 时：

常数C 较大时，类似于λ 较小，可能会导致过拟合，即高方差
常数C 较小时，类似于λ 较大，可能会导致低拟合，即高偏差

最大间隔分类器背后的数学知识

上图中，支持向量机的代价函数为：

假设θ₀ = 0且n = 2，根据向量內积的相关数学知识，我们可推得：

以及推得θ^Tx⁽ⁱ⁾ = p⁽ⁱ⁾||θ||。

上图中，绿线表示支持向量机作出的判定边界，蓝线表示与判定边界正交的参数θ向量。

根据之前向量內积的相关数学知识，我们可以清楚了解到支持向量机如何作出与样本之间保持最大间隔的判定边界。

在本例中，我们设置了θ₀ = 0，这保证了判定边界过原点。

注：常数C为一个非常大的数。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

RookieFCB CSDN认证博客专家 CSDN认证企业博客

码龄11年

131: 原创

9万+: 周排名

138万+: 总排名

14万+: 访问

: 等级

2225: 积分

80: 粉丝

33: 获赞

56: 评论

260: 收藏

私信

关注

热门文章

分类专栏

最新评论

用CNN识别CT图像检测肺癌
song_li_huan: 大神你好，可以提供预测代码吗？我只要已训练好的模型，和测试图片，预测代码。我的邮箱181454035@qq.com，感谢
Python 立体声音频生成
RookieFCB: 那你可以在调达摩院api前对音频进行预处理以解决这个格式一致问题
Python 立体声音频生成
lmw0320: 我查过了，都是float64的格式。我后面试了下，貌似要把语音的采样率，通道数，量化位数三者，都与测试的语音文件一致，才能正确识别出语音。以前没搞过语音识别。感觉如果对语音文件的要求这么高，有点不合常理啊。。不应该是常规的语音都要能正常识别么？难道每次输入的语音文件都事先转换下，才能用？？
Python 立体声音频生成
RookieFCB: 你可以检查一下新生成的单通道音频的数据类型
Python 立体声音频生成
lmw0320: 请教下，我测试了个达摩院提供的语音识别模型，用官方的wav文件可以正常识别。但是换成自己的wav文件却一直识别不到。。查看了下，发现代码用的soundfile来读取文件，官方的wav文件读出来的形状是（x, )，我的文件读取出来是（x,2).--然后我用scipy中wavefile提取了单通道的语音，并另存成文件（试了下可以正常播放），再去测试，发现无法识别到声音，结果都是什么sil。。。不知道这种语音文件要注意什么方面的东西么？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。