《机器学习》基本概念

模型:学得的结果,例如一个线性函数,一棵决策树,全局性结果。
模式:局部性结果,例如一条规则。

数据:数据集、样本、属性(键)、属性值、属性空间。
过程:学习、训练,由学习算法来完成学习过程,使用到的数据叫训练数据。
训练数据:训练集、训练样本。
潜在规律:假设、真相。
样例:拥有标记信息的示例。
测试样本:被预测的样本。
泛化:一叶知秋、少量样本训练的模型能通用于整个数据集。即:从特殊到一般。
版本空间:每个训练集对应一个版本空间。不同训练集的版本空间也会不同。
偏好:特殊偏好、一般偏好、其他偏好等。必须有偏好,否则容易被迷惑,无法产生确定的学习结果。

归纳:从具体的事实归纳出一般性规律的“泛化”。
演绎:从一般到特殊的“特化”。

归纳学习的类别(从样例中学习)

  • 监督学习:回归、分类
  • 无监督学习(对没有标记信息的数据集进行学习):聚类
  • 半监督学习(有少量标记信息的数据集,更多的是没有标记):聚类、流形

回归:预测连续值,如图像相似度,0.99、0.37、0.01。

分类:预测离散值

  • 二分类:正类、反类。
  • 多分类:例如甲级、乙级、丙级,多个确定的类别。又如好瓜、一般瓜、烂瓜。
  • 聚类:训练样本不具备标记信息,这样就要通过各种属性值去分出若干个簇(cluster)
  • 流形:假设数据分布在一个流形结构上,邻近的样本拥有相似的输出值。

学习过程就是为了找出或者逼近真相
学习算法通常有参数需设置,使用不同参数和(或者)训练数据,将产生不同结果。

初始数据量充足时,留出法和交叉验证法更常用。
少量时适合用留一法。
数据集较小(比留一法开销更小)难以划分训练/测试集时适合用自助法。

调参:使用每个参数组合对每一组数据集训练测试出模型进行考察。比如参数a,b,c,d分别有5,8,2,20个候选参数值,那么每组训练/测试集需要考察的模型数量为5*8*2*20=1600。有些大型的深度学习算法甚至有上百亿个参数。


评估方法(样本集划分、参数范围和步长选择):

  • 留出法:
    一般将2/3~4/5的样本用于训练,剩余的用于测试。
  • 交叉验证法(k折交叉验证):
    例如:10次10折交叉验证,与100次留出法都是进行了100次训练/测试。
  • 留一法:
    k=m折的交叉验证法(m个样本),不受随机样本划分方式影响。比较准确但需要训练的模型个数=样本个数,计算开销往往难以忍受。
  • 自助法:
    自助采样,每次随机从m个样本的D中挑选一个样本拷贝(不是移动,所以会重复挑选到同一个样本)到D`,重复m次就得到了一个训练集D`,而D/D`得作为一个测试集。这样始终不被采集到的概率极限是0.368。
  • 调参:
    算法的参数(超参数),通常人工选定,数目常在10以内。

模型的参数:通过学习产生的参数,


性能度量:模型的好坏不仅取决于算法和数据,还有任务需求(性能度量)

  • 错误率
  • 精度
  • 查准率:准确率,TP/(TP+FP)
  • 查全率:召回率,TP/(TP+FN)
  • 平衡点(BEP):查准率=查全率的取值
  • F1度量:F1=(2*P*R)/(P+R)=2*TP/(样例总数+TP-TN)
  • ROC曲线、AUC面积

检验方法

  • 假设检验
  • 检查验证t检验
  • McNemar检验
  • Friedman检验与Nemenyi后期检验
  • 偏差和方差

学习算法

  • 决策树
  • 神经网络
  • 支持向量机(SVM:Support Vector Machine):超平面,二分类任务
  • 核方法

线性模型

  • 线性回归:f(x)=wx+b
  • 多元线性回归:f(x)=wTx+b
  • 对数线性回归:y=g-1(wTx+b)
  • 对数几率回归:二分类预测模型,y=1/(1+e-z),通过学习出z=wTx
  • 线性判别分析:不同类的投影距离尽量远,同类的则尽量近
  • 多分类学习
  • 类别不平衡问题:不同类别的样本数量相距悬殊
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值