机器学习 --浙江大学机器学习笔记 强烈推荐
设置参数:
T-task 要完成的任务
E-experience 用于机器来学习的数据
P-perfoemance 性能评价指标
学习分为:监督学习和强化学习 ps:划分并不绝对
监督学习分为:监督学习和无监督学习 区别在于经验的来源
监督学习:E来自人工给与
监督学习分为:分类 回归 这俩种分类不是绝对的
分类:标签是离散的值 eg:人脸识别
回归:标签是连续的值 eg:股价
非监督学习:E来自自己的不断试错 我们只需要定义收益函数
强化学习:计算机自动改变行为使收益最大化
一般先监督后强化会使效率变高
就像我们学习时先学知识再做题在做题中不断的完善自己就是先监督后强化
监督学习根据数据标签存在与否的分类:
传统的监督学习
应用: 支持向量机
人工神经网络
深度神经网络
非监督学习
应用: 聚类
EM算法
主成分分析
半监督学习
上面的综合,出现原因 无监督学习太慢,监督学习标签成本高
机器学习步骤
第一步 :提取特征 PS:机器学习的重点在于如何构造算法从而获得更好的性能
第二部:特征选择
第三步:形成特征空间以及划分 可以是n维
学习模型——基础概念
NO Free Lunch Theorem:任何一个预测函数
如果在一些样本训练上表现好那么必然在另一些样本上表现的不好
如果不先假设数据 那么一般来说正确和错误的概率相同
为什么会出现这种情况 是因为我们先假设出现的概率为0.5
但实际情况往往不是:在特征空间中接近的样本往往一样
eg:明天太阳会升起
机器学习的本质就是由已知->未知
没有能适用与一切的好的model
具体算法学习
支持向量机——SVV(苏联乌拉
线性可分 :可用一条直线(二维)将样本区分开来 ps三维就是平面 四维 超平面
一个
线性不可分:不存在一条直线(二维)将其分开
线性可分–二维 俩类
Xi为向量 yi{+1 -1}表示分类
线性可分基于线性代数的转换
上面的公式逆推即就是预测的过程 即由样本估计分类
步骤
解决线性可分问题
将结论推广到线性不可分中去
怎么判断那个最好?
二号线对误差的容忍程度最高
怎么想到这条线?看看大佬的想法
将所确定的分类直线向两类样本平行移动 直到和样本相交 俩条线距离最远且在左右俩相交直线的最中间 的就是最优解
高维? 化为平面即可
支持向量机优化
最小化(严格数学公式
所必要的前置知识
通过a来缩放wb的大小 基于前置知识一
那么公式2变为
求d最大及要求w最小 在前面乘以1/2是为了方便后续的求导
该优化为凸优化中的二次规划问题
凸优化:研究定义于凸集中的凸函数最小化的问题 (只有唯一的全局极值,可用梯度下降算法计算 详情见高数部分(滑稽)
二次规划:目标函数为二次函数,约束条件为线性约束,属于最简单的一种非线性规划。 要求:目标函数是二次项,限制条件是一次项
要么无解 要么有唯一解
线性不可分时
当线性不可分时 是找不到一个wb满足上式子
因此在这里进行一个改变 (原理 不知道 有点像收敛的定义
不仅要让w越小越好,同时让松弛变量越小越好
c是人为设定的--超参数
当C足够大时 松弛变量趋近于0
从上图中可以发现应该是一条曲线 所以我们因扩大可选函数的范围 不能只满足于线性
解决上述问题
将特征空间由低维映射到高维 (升维度解决)变成线性可分 (数学家消防员故事)
结论:将数据映射到高维可以更容易线性划分
用凸函数可以解出和上面之前几乎一模一样