西瓜书第一章部分内容学习笔记

最新推荐文章于 2022-04-30 20:07:57 发布

NANN.

最新推荐文章于 2022-04-30 20:07:57 发布

阅读量173

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/qq_44870873/article/details/120743787

版权

笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.何为机器学习

作为一门学科，机器学习致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。
机器学习所研究的主要内容，是关于在计算机上从数据中产生“模型”(model)的算法，即“学习算法”(learning algorithm)。学习算法根据所读取的数据产生模型，在面对新的情况时，模型会提供相应的判断。

2.基本术语

数据集(data set)：收集到的数据（记录）的集合。
样本(sample)或示例(instance)：数据集中的每一条记录，是关于一个事件或对象的描述。
属性(attribute)或特征(feature)：反映事件或对象在某方面的表现或性质的事项，例如大小、颜色。
属性值(attribute value)：属性的取值，例如“墨绿”，“黑色”。
属性空间(attribute space)或样本空间(sample space)：属性张成的空间。即不同的属性作为坐标轴，张成一个描述事件或对象的维度空间，使得事件或对象可以在空间中找到自己的坐标。
学习(learning)或训练(training)：从数据中学得模型的过程，该过程通过执行某个学习算法来完成。
训练数据(training data)：训练过程中使用的数据。
训练样本(training sample)：训练过程中使用数据的每一个样本，又称为“训练示例”(training instance)。
训练集(training set)：训练样本组成的集合。
假设(hypothesis)：学习算法学得模型对应了关于数据的某种潜在的规律。
真相或真实(ground-truth)：即潜在规律。
聚类(clustering)：将训练集中的样本分成若干组，其中每一个组成为一个“簇”(cluster)。
根据训练数据是否拥有标记信息，学习任务可大致分为“监督学习”(supervised learning)和“无监督学习”(unsupervised learning)。
泛化(generalization)能力：学习算法学得模型适用于新样本的能力。

3.假设空间

归纳(induction)：从特殊到一般的泛化(generalization)过程，即从具体事实归结出一般性规律。
演绎(deduction)：从一般到特殊的特化(specialization)过程，即从基础原理推演出具体情况。
归纳学习(induction learning)：有狭义和广义之分，广义的归纳学习大体上相当于从样例中学习，狭义的归纳学习要求从训练数据中学得概念(concept)，因此也称为“概念学习”或“概念形成”。