机器学习——绪论

机器学习:取代人类基于经验做出的判断

核心:研究如何通过计算的手段,利用经验来改善系统自身的性能

计算机+数据——产生模型算法,即“学习算法”——产生模型——进行经验预测

一些基本术语:

  1. 数据(Data):一批关于某物体的信息。
  2. 数据集 (Dataset):关于物体的信息记录的集合。
  3. 样本:关于物体的一组记录(数据)。
  4. 属性:反映对象在某方面的性质的事项。
  5. 属性值:上述事项的取值。
  6. 属性空间(样本空间):属性们的集合。
  7. 学习(训练):从数据中学得模型的过程。
  8. 训练数据:训练模型过程中使用的数据。
  9. 训练样本:训练模型过程中使用的每一个样本。
  10. 训练集:所有训练样本得集合。
  11. 假设:学得模型对应了关于数据的某种潜在的规律,称为“假设”。
  12. 真实(真相):真实存在的潜在规律自身。

学习过程就是为了找出或逼近真相

  1. 模型:学习算法在给定数据和参数空间上的实例化。
  2. 标记:关于示例结果的信息。
  3. 标记空间:标记的集合。

预测离散值——做判断——分类任务

预测连续值——做程度分析——回归任务:二分类,多分类任务等

划分潜在概念——学习潜在规律——聚类

  1. 测试:使用学习好的模型进行预测的过程。
  2. 测试样本:测试过程中被预测的样本。

监督学习:分类和回归任务(事先知道学习目标和效果)

无监督学习:聚类任务(事先不知道,一切看结果)

根据训练数据是否拥有标记信息划分

机器学习的目标:使学得的模型能更好的适用于新样本,而不只适用于训练样本。

  1. 泛化能力:模型适用于新样本的能力。越强越好。
  2. 独立同分布:采样要求。样本之间采集互不干扰,且符合相同的样本分步条件。

归纳:从特殊到一般的泛化过程——从具体的事实归结出一般性规律。

演绎:从一般到特殊的泛化过程——出基础原理推演出具体状况。

  1. 假设空间:所有可能假设组成的集合

学习过程:在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设。

也就是说将所有可能的潜在规则列出来,进行搜索筛选,最终留下来的符合训练集的描述的假设就是真相。

  1. 版本空间:假设空间中满足训练集要求的“假设集合”
  2. 偏好:选择偏好
  3. 归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好

看似奇怪,实则必须。任何一个有效的学习模型必须具有偏好,否则会被相似选项迷惑,无法产生确定的学习效果

归纳偏好是机器学习模型的“价值观”,决定了模型算法的性能

无偏好,见下文NFL(所有问题同等重要)

(偏好选择)奥卡姆剃刀原则:若有多个假设与观察一致,则选最简单的那一个。

没有免费的午餐定理(No Free Lunch, NFL):如果所有问题出现的机会相同,则学习算法的期望性能完全相同,约等于随机乱猜——脱离具体问题,空泛的谈“什么学习算法更好”毫无意义。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值