学习笔记：西瓜书1--绪论

最新推荐文章于 2019-10-09 10:54:16 发布

老兔子拆东墙

最新推荐文章于 2019-10-09 10:54:16 发布

阅读量242

点赞数

文章标签：学习笔记

本文链接：https://blog.csdn.net/qq_38781726/article/details/81591126

版权

1、基本术语

数据且是大量的数据是机器学习的根根本。通过将一系列的数据，找到它的规律，那么就能得到模型或者说一种映射。
数据集data set：数据的集合；
示例instance/样本sample：每条数据描述了一个对象的信息，该对象称之为示例，一般用x表示；
属性attribute/特征feature：数据描述的是样本在某些方面的性质，称之为属性；
属性值attribute value：属性的取值；
属性空间attribute space/样本空间sample space/输入空间input space：对于一个样本而言，假如它有n种属性，则组成了一个n维空间，称之为样本空间；
特征向量feature vector：示例的别名；
学习learning/训练training：从数据集中学得模型的过程；
训练数据training data：学习过程中使用的数据；
训练样本training sample：训练数据中的样本；
训练集training set：数据集分为两部分，一部分用于训练模型；
假设hypothesis：学得的模型对应了数据集中某种潜在的规律，称之为假设；
真相/真实ground-truth：数据集本身的潜在的规律。学习的过程就是逼近真相的过程；
学习器learner：模型的别称；
标记label：有关示例结果的信
样例example：具有标记信息的示例；
标记空间label space/输出空间：所有标记的集合构成的空间；
分类classification：一种典型的学习任务，将数据集按一定规律分为若干类，其预测值是离散值；
回归regression：一种典型的学习任务，预测数据集对应的结果，其预测值是连续值；
二分类binary classification：分类输出的结果只有正反两类；
正类positive class：二分类任务其中的一类数据；
反类negative class：同上；
多分类multi-class classification：多于两种类别，不能简单的正反表示，多半是表述其多个特征；
测试testing：学得模型后，对其进行预测的过程。机器学习是一个反复的过程，需要重复多次学习、测试、调整，才能得到准确率最高的模型；
测试样本testing sample：被预测的样本；
聚类clustering：无监督学习的一种，将训练集的数据分为若干组，而这些组事先是不知道的；
簇cluster：聚类得到的数据分类；
监督学习supervised learning：训练数据拥有标记信息；
无监督学习unsupervised learning：训练数据没有标记信息；
泛化generalization能力：学得模型适用于新样本的能力。或者说，模型预测数据的精准度；
独立同分布independent and identically distributed：简称i,i,d。假设样本是从一个很大的数据空间中且服从某种分布，每个样本独立的从其内在分布上得到的；

2、假设空间
归纳和演绎：归纳是从特殊到一般的过程（泛化）而演绎是从一般中找到特殊。机器学习就是从特殊到一般的过程。我们的目的是泛化，我们学习的到的模型是需要对新的样例进行预测的。或者是对未知的认知。学习的过程就是找到规律的过程，假设就是对于的潜在规律；当然规律会有很多种，学习就是找到其最适合的那种。

3、归纳偏好
我们可能在学习的过程中会找到很多种规律，我们就要从我们得到的很多种规律中找到最合适的那一种。机器学习算法在学习的过程中，对某种类型的假设的偏好，称之为归纳偏好。打个不恰当的比喻，我们听歌，我们的歌单里面有很多的歌曲，我们总会有比较喜欢的歌曲和最喜欢的歌曲，最喜欢的我们听的次数会比较多；这的次数可以类比给予的权重。正规术语来说，对于归纳偏好，奥卡姆剃刀作为一般的原则，用于引导算法确立“正确”的偏好。奥卡姆梯度是自然科学中最常见的法则之一：若有多个假设与观察一致，则选最简单的那个。
没有免费的午餐原则（No Free Lunch Theremo NFL）：脱离了实际具体问题的比较是无意义，我们不能简单说哪个算法好，我们应该说在某种情况下，哪个算法比较适合

参考文章https://blog.csdn.net/qq_34100655/article/details/79122523

老兔子拆东墙

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习笔记：西瓜书1--绪论

1、基本术语数据且是大量的数据是机器学习的根根本。通过将一系列的数据，找到它的规律，那么就能得到模型或者说一种映射。数据集data set：数据的集合；示例instance/样本sample：每条数据描述了一个对象的信息，该对象称之为示例，一般用x表示；属性attribute/特征feature：数据描述的是样本在某些方面的性质，称之为属性；属性值attribute va...
复制链接

扫一扫