《机器学习》读书笔记——第一章 绪论

本章内容是在阅读《机器学习》的过程中记录的学习笔记,这本书是机器学习领域的经典书籍,作者是周志华老师。

引言

机器学习致力于研究如果通过计算的手段,利用经验来改善系统自身的性能。机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”(model)的算法。本书中用“模型”泛指从数据中学得的结果。
[Mitchell,1997]给出了一个更形式化的定义:假设用P来评估计算机程序在某任务类T上的性能,如果一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。

基本术语

中文名英文名含义
数据集data set
示例/样本instance/sample数据集中的每条记录是关于一个事件或对象的描述,成为示例或样本
属性/特征attribute/feature反应事件或对象在某方面的表现或性质的事项
属性值attribute value
属性空间/样本空间/输入空间attribute space/sample space属性张成的空间
特征向量feature vector由于空间中的每个点对应一个坐标向量,因此我们也把一个示例成为一个“特征向量”
学习/训练learning/training从数据中学得模型的过程
训练数据training data训练过程中训练的数据
训练样本training sample训练数据中的每个样本
训练集training set训练样本组成的集合
假设hypothesis学得模型对应了关于数据的某种潜在的规则
真相/真实ground-truth潜在规则自身
标记label示例结果
标记空间/输出空间label space标记的集合
分类classification预测离散值
回归regression预测连续值
二分类binary classification只涉及两个类别时的分类,其中一个类为正类(positive class),另一个为负类(negative class)
多分类multi-class classification设计多个类别时
测试testing学得模型后,使用其进行预测的过程
测试样本testing sample被测试的样本
聚类clustering将训练集分成若干组,分一个组称为”簇“(cluster),这些簇可对应一些潜在的概念划分
泛化generalization学得模型适用于新样本的能力
分布distribution通常假设样本空间中的全体样本服从一个未知分布
独立同分布independent and identically distributed(简称i.i.d.)每个样本在其分布中都是独立的

根据训练数据是否拥有标记信息,学习任务分类两类

监督学习(supervised learning)无监督学习(unsupervised learning)
分类、回归聚类

假设空间

归纳(induction)和演技(deduction)是科学推理的两大基本手段。归纳是从特殊到一般的”泛化“(generalization)过程,演绎是从一般到特殊的”特化“(specialization)过程。从样例中学习是一个归纳过程,因此称为”归纳学习“(induction learning)。
归纳学习可有侠义和广义之分。侠义的归纳学习是指从训练数据中学得概念(concept),也成为”概念学习“,广义的归纳学习是指从样例中学习。
example
已知西瓜训练数据集如下:

编号色泽根蒂敲声好瓜
1青绿蜷缩浊响
2乌黑蜷缩浊响
3青绿硬挺清脆
4乌黑稍卷沉闷

我们把学习的过程看作是对所有假设空间进行搜索的过程,搜索目的是找到与训练集匹配(fit)的假设。西瓜的色泽可以是青绿、乌黑、浅白这三种,也可是其中任意色泽,根一次类推,根蒂、敲声都有四种假设,还有一种可能是世界上并不存在好瓜。则假设空间大小为444+1=65。假设空间如图所示:在这里插入图片描述
我们现在对假设空间进行搜索,搜索过程中删除与正例不一致的假设和(或)与反例一致的假设,最后剩下与训练集一致的假设。与训练集一致的假设集合称为”版本空间“(version space),如下图所示:
在这里插入图片描述

归纳偏好

我们得到的版本空间中有三个假设匹配训练数据集,那么我们选择哪一个假设更科学呢?这就涉及到归纳偏好问题了。我们在学习过程中,对某种类型假设的偏好,称为”归纳偏好“(induction bias)。
”奥卡姆剃刀“是一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观测一致,则选择最简单的那一个”。但遗憾的是,“没有免费的午餐”定理(No Free Lunch Theorem,简称NFL定理)告诉我们,在所有问题出现的机会相同、或所有问题同等重要的情境下,不同算法的期望性能是相同的。因为若要考虑所有潜在的问题,则所有学习算法都一样好,要谈论算法的相对优劣,必须要针对具体的学习问题。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值