Semi-Supervised Support Vector Machines(S3VMs)

最新推荐文章于 2024-04-06 15:39:09 发布

extremebingo

最新推荐文章于 2024-04-06 15:39:09 发布

阅读量3.1k

点赞数 2

分类专栏： machine learning 半监督学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/extremebingo/article/details/79020907

版权

对于Semi-Supervised Support Vector Machines (S3VMs)，即半监督支持向量机的直观理解是很简单的，如下图所示。在左图中，所有的数据都是有标签数据，所以可以使用SVM的最大化间隔来确定分离超平面。如果存在大量无标记的点，如右图所示，该如何确定分离超平面呢？如果还是采用左图所示的分离超平面，则分离超平面会将稠密的无标记数据切分成两个不同的类。但是根据图上的数据分布来看，该分离超平面很可能不是最优的，最优的分离超平面为图中实线所示，它就是由S3VMs得到的一个决策边界。上面简单介绍了S3VMs的直观理解，下面从理论层面详细介绍该算法。由于S3VMs是基于SVM的，所以先介绍SVM的部分理论知识。

SVM and S3VM

Support Vector Machines(SVM)

假设存在两个类 $y \in \{ -1, 1 \}$ ，决策边界为

{x | w T x + b = 0}

$\{ x | w^Tx+b = 0 \}$

令 $f(x)=w^Tx+b$ ，则决策边界为 $f(x)=0$ 。对于样本 $x$ 的预测值为 $sign(f(x))$ ，它到决策边界距离的绝对值为 $|f(x)|/||w||$ 。

决策边界将整个特征空间划分成两份， $f>0$ 和 $f<0$ 。对于有标记样本 $(x,y)$ ，带符号的距离为

y f (x) / | | w | |

$yf(x)/||w||$

如果分类正确，则带符号的距离为正，否则为负。对于线性可分的情况，可以将问题转化为下列带约束的优化问题

min w, b s . t . | | w | | 2 y i (w T x i + b) \geq 1, i = 1, . . ., l

$\begin{align} \min_{w,b} \ & ||w||^2 \\ s.t.\ & y_i(w^Tx_i+b) \ge 1, i=1,...,l \end{align}$

对于线性不可分的情况，至少有一个点不能满足上述约束条件时，引入松弛因子 $\xi$ ，将问题转为下述优化问题

min w, b, ξ s . t . \sum i = 1 l ξ i + λ | | w | | 2 <

最低0.47元/天解锁文章

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
Semi-Supervised Support Vector Machines(S3VMs)

对于Semi-Supervised Support Vector Machines (S3VMs)，即半监督支持向量机的直观理解是很简单的，如下图所示。在左图中，所有的数据都是有标签数据，所以可以使用SVM的最大化间隔来确定分离超平面。如果存在大量无标记的点，如右图所示，该如何确定分离超平面呢？如果还是采用左图所示的分离超平面，则分离超平面会将稠密的无标记数据切分成两个不同的类。但是根据图上的数据分
复制链接

扫一扫

专栏目录

extremebingo CSDN认证博客专家 CSDN认证企业博客

码龄7年

14: 原创

30万+: 周排名

210万+: 总排名

20万+: 访问

: 等级

1040: 积分

72: 粉丝

171: 获赞

60: 评论

774: 收藏

私信

关注

热门文章

分类专栏

最新评论

OpenAI Gym构建自定义强化学习环境
weixin_45891051: 只有测试代码没有运行的主函数代码吗？
OpenAI Gym构建自定义强化学习环境
Faith_xzc: 文章少了一个注册环境的步骤，所以下面的错误基本都是这，，，，
孤立森林(Isolation Forest)
zerogiao: 使用孤立森林进行异常检测是不是要求数据的维度不能过高，这是不是跟树深有关系，假设我的数据维度为50，默认的孤立森林算法分割10次找异常点，这样我的数据会不会在这10次分割中并没有检测到异常从而导致该算法的检测准确率过低？
孤立森林(Isolation Forest)
lksjfd: 请教一下因为每棵树都是小样本（例如256），即使迭代100次，也总有异常点没被抽样。比如，假设总样本有1000万，异常点10万个，一棵树最深（log2(256)=10), 也就是最理想是一颗树能找到10个异常点，100次迭代也只能找出1000个。还没考虑异常点被反复抽到的情况。这个怎么解决呢？还是我理解有误。感谢赐教
OpenAI Gym构建自定义强化学习环境
xioabaiya: 请问怎么解决的呢，哎一直有这个问题

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。