知识点
一、基本概念
- 分类与回归
分类是预测离散值的学习任务,回归是预测连续值的学习任务 - 监督学习与无监督学习
根据训练数据是否拥有标记信息,分类与回归是监督学习中的代表,聚类是无监督学习的代表 - 归纳偏好
机器学习算法在学习过程中对某种类型假设的偏好
意义:有了归纳偏好才能使算法更好地匹配具体问题 - NFL定理(“没有免费的午餐”定理)
任何学习算法的期望值都是一样的
意义:脱离具体问题,谈论任何学习算法的好坏无意义 - 学习或训练
从数据中学的模型的过程 - 训练数据
训练过程中使用的数据 - 训练样本
每一个样本成为一个“训练样本” - 训练集
训练样本组成的集合 - 假设
学得模型对应了关于数据的某种潜在的规律 - 学习过程就是为了找出数据的某种潜在规律,这个规律本身一般称为 “真相”或“真实”
- 预测任务
希望通过对训练集进行学习,建立一个从输入空间 x 到输出空间 y 的映射 x↔y
对二分类任务,通常令 y = { -1 , +1 } 或 { 0,1 }
对多分类任务,|y|>2
对回归任务,y=R,R为实数集 - 泛化能力
学得模型适用于新样本的能力
具有强泛化能力的模型能很好地适用于整个样本空间 - 测试
学得模型后,使用其进行预测的过程
二、发展历程
推理期➡知识期➡学习期
1、相关概念
- 符号主义学习包括:决策树、基于逻辑的学习(其中以 归纳逻辑程序设计(ILP) 为代表)
- 决策树:技术简单易用
- LIP:很强的知识表示能力,可以较容易表达出复杂数据关系,且领域知识通常可以方便地通过逻辑表达式进行描述
- 基于神经网络的连接主义学习:BP算法为代表,连接主义学习最大局限是试错性,学习过程涉及大量参数,参数的涉及缺乏理论指导,主要靠手工调参,参数的微小变化会有巨大的差别
- 统计学习:支持向量机(SVM) 为代表技术
习题
-
对于要预测的新的数据样本,它的类别标记是 未知的
-
计算学习理论中最重要的理论模型是 PAC
PAC(Probably Approximately Correct,概率近似正确):
P(|f(x)-y|≤ϵ)≥1-δ
在机器学习中该理论可以理解为以很高的概率得到一个很好的模型
-
以下哪种说法描述了NFL定理?( )
A. 一个算法a若在某些问题上比另一个算法b好,必存在另一些问题没算法b好
B. 机器学习算法需要数据
C. 所有机器学习问题问题出现的机会相同
D. 一个算法a若在某些问题上比另一个算法b好,a一定比b需要更多数据
【答案】A -
填空题 (1分)
把见过的汽车分成若干组,这是一个____(分类/回归/聚类)任务
【答案】聚类