支持向量机是一种性能强大且广泛应用的学习算法
SVM可以看做是感知机的扩展
SVM的优化目标是最大化分类间隔,间隔指两个分离的超平面间的距离,最靠近超平面的训练样本为支持向量。
使用松弛变量解决非线性可分问题:
松弛系数的目的:对于非线性可分的数据来说,需要放松线性约束条件,保证在适当的罚项成本下,对错误分类的情况下进行优化时能够收敛。
取值为正的松弛变量可以简单的加入到线性约束中:
w^t x>=1若y = 1-ζ
w^t x>=-1若y = 1+ζ
得出新的优化目标为最小化该公式:1/2||w||^2 + C(Σζ)
通过变量C可以控制对错误分类的惩罚程度。
数据集和库文件定义在该章节有定义了,链接:http://mp.blog.csdn.net/postedit/79196206
训练SVM模型
# #支持向量机的最大边界分类。
def SVM():
svm = SVC (kernel='linear', C=1.0, random_state=0)
svm.fit (X_train_std, y_train)
plot_decision_regions (X_combined_std, y_combined,
classifier=svm, test_idx=range (105, 150))
plt.xlabel ('花瓣长度(标准化)')
plt.ylabel ('花瓣宽(标准化)')
plt.legend (loc='upper left')
plt.tight_layout ()
# plt.savefig('./figures/support_vector_machine_linear.png', dpi=300)
plt.show ()
SVM()
一般线性逻辑回归和SVM得到的结果会非常相似。
逻辑回归会尽量最大化训练集的条件似然(极大似然估计),使得他比SVM更易于处理离群点,且算法更容易实现,且经常应用于流数据分析。
SVM会更关注接近决策边界的点。