李航《统计学习方法》第七章——用Python实现支持向量机模型（伪造数据集）

最新推荐文章于 2025-10-01 09:44:26 发布

原创

最新推荐文章于 2025-10-01 09:44:26 发布 · 1.4w 阅读

60 ·

CC 4.0 BY-SA版权

文章标签：

#python #李航 #统计学 #数据 #算法

相关文章：

李航《统计学习方法》第二章——用Python实现感知器模型（MNIST数据集）

李航《统计学习方法》第三章——用Python实现KNN算法（MNIST数据集）

李航《统计学习方法》第四章——用Python实现朴素贝叶斯分类器（MNIST数据集）

李航《统计学习方法》第五章——用Python实现决策树（MNIST数据集）

李航《统计学习方法》第六章——用Python实现逻辑斯谛回归（MNIST数据集）

李航《统计学习方法》第六章——用Python实现最大熵模型（MNIST数据集）

李航《统计学习方法》第八章——用Python+Cpp实现AdaBoost算法（MNIST数据集）

李航《统计学习方法》第十章——用Python实现隐马尔科夫模型

在我看来，SVM的基本思想其实就是找一个超平面，这个超平面能正确划分训练数据集并且几何间距最大！
必须承认，我的SVM效果不好，且训练速度很慢，以至于不能用MNIST数据集进行测试。

支持向量机

我实现的是SMO算法
这里先贴上书上的算法
这里写图片描述

数据集

MNIST数据集特征太多，训练集也太大，导致SVM在计算初始E值得时候代价太高，运行时间太长，因此放弃使用MNIST数据集而选择使用伪造数据集。
数据集是伪造的二维的数据集，定义域为[0,1]，值域为{-1,1}，代码来自water1990一篇博客，稍微改了一下

代码

代码已放到Github上，这边也贴出来

# encoding=utf-8
# @Author: WenDesi
# @Date:   12-11-16
# @Email:  wendesi@foxmail.com
# @Last modified by:   WenDesi
# @Last modified time: 13-11-16



import time
import random
import logging

import pandas as pd
from sklearn.cross_validation import train_test_split
from sklearn.metrics import accuracy_score

from generate_dataset import *



class SVM(object):

    def __init__

最低0.47元/天解锁文章

5 条评论

happywjt2 2020.02.05
请问楼主eta可能是0吗？要是0的话怎么办？

happywjt2 2020.02.05
请问eta可能是0吗，是0的话怎么处理

蜘蛛08 2019.09.12
C值怎么选的？有什么选定依据么

白儿墨 2019.08.02
想问下楼主，在更新E的时候，为什么只更新Ei和Ej，在选alphaj的时候，不是要看全部的E吗
- 不忘初心o回复白儿墨 2019.10.16
  [reply]weixin_44264662[/reply] 所有的 E 都应该被更新的，我这边笔记本性能不行，只迭代了 100 次都有接近 80% 的正确率。

pring95 2018.10.22
效果真是奇差无比。。。
- wds2006sdo回复曹纯 2018.11.19
  [reply]weixin_43721911[/reply] is_stop好像是因为python跑起来太慢了，一直到不了停止条件，所以就设置了一个最大循环次数。为什么不用try_E我是真的忘了，你可以发一个PR
- 曹纯回复wds2006sdo 2018.11.17
  193是否应该修改为self.E[i1] = self.try_E[i1] ，194行也是， self.train()函数中判断循环结束的终止条件不应该是self.is_stop()吗？
- wds2006sdo回复pring95 2018.10.26
  [reply]huppid[/reply] 做事情要看你目的是什么，需要效果请去拿sklearn的包，我这只是展示基本原理，并与书中公式一一对应。