划分数据集的示例
当输入特征的维度低,可以自己划线,划分不同的数据集。
当输入特征的维度很大(3维/几十维),如何做一个“超平面”,划分不同的数据集。
# 一个蛋糕,切3刀 分成8等分,二维做不到,三维可以的!
分类
1.线性可分情况
简述
简述:找一个平面,向上向下平行移动该平面,使之擦过一些向量(支持向量),间距(margin)表示为d。
方法目的:让d作为优化指标,使d尽可能大;取中间作为平面就行了;
方法优点:只与支持向量有关,与其他向量无关,适用于小样本;
如何描述我希望寻找的"超平面"
超平面的数学描述:
若向量x在这个平面上,则结果是0;
用于预测:
如果X是正类,预测值>=0,那么y = 1;
如果X是反类,预测值<0,那么y = -1;
# 按理说应该有个垂直的y轴,只不过没有表示
# w也是一个向量!
推导公式的参考:
# 通过右下角的这个d公式,让d最大,来推出w应该是什么
数学表示:
2.线性不可分情况
优化目的:
特点:
# 若直线无法分割,那么神经网络、决策树会找"曲线"等其他形式来分割;而SVM会在"更高维"实现"线性分割"!
如何解这个优化问题:
补充知识:优化理论
已知w是个向量,需要最小化f(w),目前有K个不等式限制条件+M个等式限制条件
# α β固定的情况下,遍历所有w,求L最小值; 每确定一个α β,都能算出一个结果; 遍历 α β,求最大值
# 后续见视频11.
3.非线性情况
pass