机器学习：西瓜书绪论学习笔记

北岛寒沫

已于 2022-10-09 15:40:51 修改

阅读量375

点赞数

分类专栏：人工智能机器学习文章标签：机器学习人工智能

于 2022-10-08 21:18:00 首次发布

本文链接：https://blog.csdn.net/hanmo22357/article/details/127216517

版权

人工智能同时被 2 个专栏收录

30 篇文章 16 订阅

订阅专栏

机器学习

16 篇文章 4 订阅

订阅专栏

文章目录

引言

机器学习的定义：机器学习是一门致力于研究如何通过计算的手段，利用经验来改善系统自身的性能的学科。机器学习中所研究的计算机算法，称为“学习算法”。
对机器学习的理解：机器学习就是把无序的数据转换成有用的信息。（此条参照《机器学习实战》）

基本术语

机器学习的基本术语：一组数据记录的集合称为“数据集”；数据集中的每条记录称为一个“样本”或“特征向量”；反映对象或事物在某方面的表现或性质的事项称为“属性”；属性上的取值称为“属性值”；属性张成的虚拟空间称为“样本空间”。
属性的个数称为样本的“维数”；从数据中习得模型的过程称为“学习”或“训练”；训练过程所使用的样本称为“训练样本”；训练样本组成的集合称为“训练集”。
示例结果的信息称为“标记”；拥有标记信息的样本称为“样例”；所有标记的集合构成的空间称为“标记空间”。
学习任务按照是否有标记信息可以划分为“监督学习”和“无监督学习”两类。监督学习的代表是分类问题和回归问题，无监督学习的代表是聚类问题。
分类问题是指对离散值进行预测的问题。如果只涉及两个类别，称为二分类问题，二分类中的两个类别分别称为“正类”和“反类”，如果分类问题中存在多个类别则称为多分类问题。回归问题是指对连续值进行预测的问题。聚类问题是指将训练集中的样本分为若干组的问题，其中每一个组称为一个“簇”。
学得模型后使用模型进行预测的过程称为“测试”，被预测的样本称为“测试样本”。学习到的模型适用于新样本的能力称为“泛化”能力。一般来说，训练样本越多，越有可能获得具有强泛化能力的模型。
（下面的内容参照《机器学习实战》）
专家系统的定义：完成某一领域内专家的工作的程序系统。
知识表示的定义：计算机系统表示所学习到的内容的方法。
密度估计问题的定义：密度估计问题也属于一种无监督学习问题，是寻找描述数据统计值的过程。

假设空间

学习过程：可以把学习的过程看作在所有可能模型组成的空间中进行搜索的过程，搜索的目标时找到与训练集匹配的模型，也就是说该模型可以正确判断训练集中的样本。
机械学习的定义：通过记住训练样本的方式进行学习，称为机械学习。
假设空间的大小：假设样本的各个属性都取离散值，第i个属性的可能取值个数是Ni，则假设空间的大小是所有(Ni+1)相乘的结果加一。之所以前后都需要加一，是因为空集的存在。
版本空间的定义：在假设构成的空间中可能存在多个模型满足训练集，这些模型构成的集合称为版本空间。

归纳偏好

归纳偏好的定义：机器学习算法在学习过程中对某种类型假设的偏好称为归纳偏好。任何一个有效的机器学习算法必然存在偏好。
奥卡姆剃刀原理：如果存在多个假设与观察一致，那么选择最简单的那一个。奥卡姆体到原理是自然科学研究中的一项基本原则，但是并非是唯一可行的原则。
没有免费的午餐定理：在所有问题同等重要时，所有学习算法的期望性能相同。
学习算法的选择方式：根据具体问题考虑，选择适合于解决该问题的学习算法。