1.2 基本术语机器学习

最新推荐文章于 2024-05-17 18:04:31 发布

盛寒

最新推荐文章于 2024-05-17 18:04:31 发布

阅读量829

点赞数 16

分类专栏：机器学习西瓜书文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/2403_83073833/article/details/136326906

版权

机器学习西瓜书专栏收录该内容

10 篇文章 0 订阅

订阅专栏

我们要进行机器学习，先要有数据。假定我们收集了一批关于西瓜的数据，例如(色泽=青绿;根蒂=蜷缩;敲声=浊响)，(色泽=乌黑;根蒂=稍蜷;敲声=沉闷), (色泽=浅白:根蒂=硬挺;敲声=清胞)……每对括号内是一条记录，“=”意思是“取值为”。

这组记录的集合称为一个“数据集”，其中每条记录是关于一个时间或对象的描述，称为一个“示例”或“样本”。反映事件或对象在某方面的表现或性质的事项，称为“属性”或“特征”，例如‘色泽’，‘根蒂’；属性上的取值，称为“属性值”，例如‘青绿’，‘乌黑’。属性张成的空间称为“属性空间”，“样本空间”，或“输入空间”。例如我们把“色泽”“根蒂” “敲声” 作为三个坐标轴，则它们张成一个用于描述西瓜的三维空间，每个西瓜都可在这个空间中找到自己的坐标位置。由于空间中的每个点对应-个坐标向量，因此我们也把一个示例称为一个“特征向量”(feature vector).

从数据中学得模型的过程称为“学习”或“训练”，这个过程通过执行某个学习算法来完成。训练过程中使用的数据称为“训练数据" (training data)，其中每个样本称为一个“训练样本”，训练样本组成的集合称为“训练集" (training set).学得模型对应了关于数据的某种潜在的规律，因此亦称为假设(hypothesis);这种潜在规律自身，则称为“真相”或“真实”(ground-truth),学习过程就是为了找出或逼近真相。

如果我们希望学得一个帮助我们判断是否是好瓜的模型，我们之前的示例数据是不够的。显然，我们还需要训练样本的“结果”信息，比如(色泽=青绿;根蒂=蜷缩:敲声=注响，好瓜)”。这里关于示例结果的信息，例如“好瓜”，称为“标记”；拥有了标记信息的示例，则称为“样例”。一般的，用 $\left ( x i,yi\right )$ 表示第i个样例。其中， $yi$ $\epsilon$ $Y$ 是示例 $xi$ 的标记，Y是所有标记的集合，称为“标记空间”和“输出空间”。

若我们欲预测的是离散值，例如“好瓜”“坏瓜”，此类学习任务称为分类”(classification); 若欲预测的是连续值,例如西瓜成熟度0.95、0.37,此类学习任务称为“回归”(regression). 对只涉及两个类别的“二分类”(binary classification)任务,通常称其中一个类为 “正类”(positive class),另一个类为“反类”(negative class); 涉及多个类别时，则称为“多分类”(multi-class classification) 任务。 预测任务是希望通过对训练集进行学习，建立一个从输入空间 x到输出空间Y的映射f :X->Y.对二分类任务,通常令Y= {-1,+1}或{0,1};对多分类任务, |Y|> 2; 对回归任务, Y=R, R为实数集.

学得模型后,使用其进行预测的过程称为“测试”(testing), 被预测的样本称为“测试样本”(testing sample).例如在学得 f 后,对测试例 x ,可得到其预测标记y= f(x).

我们还可以对西瓜做“聚类”(clustering), 即将训练集中的西瓜分成若干组,每组称为一个“簇”(cluster);这些自动形成的簇可能对应一些潜在的概念划分,例如“浅色瓜”“深色瓜” ,甚至“本地瓜”“外地瓜”.这样的学习过程有助于我们了解数据内在的规律,能为更深入地分析数据建立基础.需说明的是,在聚类学习中，“浅色瓜”“本地瓜”这样的概念我们事先是不知道的，而且学习过程中使用的训练样本通常不拥有标记信息.根据训练数据是否拥有标记信息，学习任务可大致划分为两大类:“ 监督学习”(supervised learning) 和“无监督学习”(unsupervised learning), 分类和回归是前者的代表,而聚类则是后者的代表.

学得模型适用于新样本的能力,称为“泛化”(generalization)能力.具有强泛化能力的模型能很好地适用于整个样本空间.于是,尽管训练集通常只是样本空间的一个很小的采样,我们仍希望它能很好地反映出样本空间的特性,否则就很难期望在训练集上学得的模型能在整个样本空间上都工作得很好.通常假设样本空间中全体样本服从一个未知“分布”(distribution) D,我们获得的每个样本都是独立地从这个分布上采样获得的，即“独立同分布”(independent and identicallydistributed,简称id.).一般而言, 训练样本越多,我们得到的关于D的信息越多，这样就越有可能通过学习获得具有强泛化能力的模型。

盛寒

关注

16
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
1.2 基本术语机器学习

例如“浅色瓜”“深色瓜” ,甚至“本地瓜”“外地瓜”.这样的学习过程有助于我们了解数据内在的规律,能为更深入地分析数据建立基础.需说明的是,在聚类学习中，“浅色瓜”“本地瓜”这样的概念我们事先是不知道的，而且;是希望通过对训练集进行学习，建立一个从输入空间 x到输出空间Y的映射f :X->Y.对二分类任务,通常令Y= {-1,+1}或{0,1};例如我们把“色泽”“根蒂” “敲声” 作为三个坐标轴，则它们张成一个用于描述西瓜的三维空间，每个西瓜都可在这个空间中找到自己的坐标位置。
复制链接

扫一扫