【机器学习】1.绪论

最新推荐文章于 2024-09-13 19:03:07 发布

^ V ^

最新推荐文章于 2024-09-13 19:03:07 发布

阅读量914

点赞数 26

分类专栏：机器学习文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/m0_57354496/article/details/142096562

版权

2 篇文章 0 订阅

订阅专栏

🚩 西瓜书的学习开始啦！
🚩 机器学习是深度学习的前身与基础，本系列我希望将西瓜书中的相关重点整理成笔记，供读者和未来的自己快速回顾/入门。
🚩 为了节省时间，公式均使用截图。

引言

机器学习【周志华】：通过计算的手段，利用经验来修改系统自身的性能。
机器学习【Mitchell，1997】：假设用P来评估计算机程序在某任务类T上的性能，若一个程序通过利用经验E在T中任务上获得了性能改善，则我们就说关于T和P，该程序对E进行了学习。

后文用“模型”泛指从数据中学习得到的结果
在计算机系统中，“经验"通常以"数据"形式存在，因此?机器学习所研究的主要内容，是关于在计算机上从数据中产生"模型” (model) 的算法，即"学习算法" (learning algorithm). 有了学习算法，我们把经验数据提供给它，它就能基于这些数据产生模型;在面对新的情况时(例如看到一个没剖开的西瓜)，模型会给我们提供相应的判断(例如好瓜)。
根据经验做出预测：色泽青绿、根蒂蜷缩、敲声浊晌，就能判断出是正熟的好瓜

数据集：一组记录，每条记录是关于一个事件或者对象的描述

例如：收集了一批关于西瓜的数据的集合，例如(色泽=青绿;根蒂=蜷缩;敲声=浊响)， (色泽=乌黑;根蒂=稍蜷;敲声=沉闷)， (色泽=浅自;根蒂=硬挺;敲声=清脆)，……，每对括号内是一条记录，“=”意思是"取值为"
包含m个实例的数据集：

样本：数据集中的一条记录

属性（特征）：反映事件或对象在某方面的表现或性质的事项

属性值：属性的取值

属性空间（样本空间）（输入空间）：属性张成的空间

特征向量：一个样本在空间中对应一个点，每个点对应一个坐标向量。

训练：从数据中学得模型的过程
训练样本：训练过程使用的数据样本
训练集：训练样本组成的集合
样例：拥有了标记信息的示例

在这里插入图片描述

标记空间（输出空间）：所有标记的集合
分类：预测的是离散值，这类学习任务称为分类
回归：预测的是连续值，这类学习任务称为分类
正类：二分类中的一类
反类：二分类中的另一类
多分类：设计多个类别时的分类任务

测试：学得模型后，使用其进行预测的过程
测试样本：被预测的样本

聚类：将训练集中的样本按照不同特征分成若干组

监督学习：代表任务有分类和回归
无监督学习：代表任务有聚类

泛化：机器学习的目标是使得模型更好地适用于“新样本”，学得模型适用于新样本的能力称为泛化。

具有强泛化能力的模型能很好地适用于整个样本空间，训练集通常只是样本需间的一个很小的采样，我们希望它能很好地反映出样本空间的特性，这样学得的模型在整个样本空间中都工作得很好。

一般而言，训练样本越多，我们得到的关于D 的信息越多，这样就越有可能通过学习获得具有强泛化能力的模型。

归纳和演绎是推理的两种方法。前者从特殊到一般的“泛化”；后者从一般到特殊的“泛化”。
狭义的归纳学习要求从训练数据中学得概念，亦被称为“概念学习”。
最基本的概念学习是布尔概念学习，对是与否这样的0/1布尔值的目标概念学习，例如有数据集：
学习目标是判断出“好瓜”
学习过程是在所有假设组成的空间中进行搜索的过程。即能够将训练集中的瓜正确判断的假设。
可以有许多策略对这个假设空间进行搜索，例如自顶向下、从一般到特殊，或是自底向上、从特殊到一般，搜索过程中可以不断删除与正例不一致的假设、和(或)与反例→致的假设.最终将会获得与训练集一致(即对所有训练样本能够进行正确判断)的假设，这就是我们学得的结果、
版本空间：实际问题一般有很大的假设空间，但是学习过程是基于有限样本训练集进行的。存在着一个与训练集一致的“假设集合”称为“版本空间”。 我的理解就是：好瓜的解空间（如下图）