1 机器学习-问题构建（Framing）

最新推荐文章于 2021-08-03 21:21:02 发布

曹禺

最新推荐文章于 2021-08-03 21:21:02 发布

阅读量303

点赞数

分类专栏： cts、gts、git等杂项

cts、gts、git等杂项专栏收录该内容

14 篇文章 0 订阅

订阅专栏

什么是（监督式）机器学习？简单来说，它的定义如下：

-->机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测。

下面我们来了解下机器学习的基本术语。

标签

标签是我们要预测的事物，即简单线性回归中的y变量。标签可以是小麦未来的价格、图片中显示的动物品种、音频剪辑的含义或任何事物。

特征

特征是输入变量，即简单线性回归中的x变量。简单的机器学习项目可能会使用单个特征，而比较复杂的机器学习项目可能会使用数百万个特征，按如下方式指定：{x1,x2, ...xn}

在垃圾邮件检测器实例中，特征可能包括：

1.电子邮件文本中的字词

2.发件人的地址

3.发送电子邮件的时段

4. 电子邮件中包含“一种奇怪的把戏”这样的短语。

样本

样本是指数据的特定实例X。（我们采用粗体X表示它是一个矢量。）我们将样本分为以下两类：

1. 有标签样本

2，无标签样本

有标签样本同时包含特征和标签。即： labeled example：{features，label}:(x,y)

我们使用有标签样本来训练模型。在我们的垃圾检测器示例中，有标签样本是用户明确标记为“垃圾邮件”或“非垃圾邮件”的各个电子邮件。

例如，下表显示了从包含加利福尼亚州房价信息数据集中抽取5个标签样本

housingMedianAge （特征）	totalRooms （特征）	totalBedrooms （特征）	medianHouseValue （标签）
15	5612	1283	66900
19	7650	1901	80100
17	720	174	85700
14	1501	337	73400
20	1454	326	65500

无标签样本包含特征，单不包含标签 unlabeled examples：{features，？} ：（x，？）

在使用有标签样本训练了我们的模型之后，我们会使用该模型来预测无标签样本的标签。在垃圾邮件检测器示例中，无标签样本是用户尚未添加标签的新电子邮件。

模型

模型定义了特征与标签之间的关系。例如垃圾邮件检测器模型可能会将某些特征与“垃圾邮件”紧密联系起来。我们来重点介绍一下模型生命周期的两个阶段：

训练表示创建或学习模型。也就是说，您想模型展示有标签样本，让模型逐渐学习特征与标签之间的关系。

推断表示将训练后的模型应用于无标签样本。也就是说，您使用训练后的模型来做出有用的预测（y'）。例如在推断期间，您可要对新的无标签样本预测medianHouseValue。

回归与分类

回归模型可预测连续值。例如回归模型做出的预测可回答如下问题：

1.加利福尼亚州一栋房产的价值是多少？

2.用户点击此广告的概率是多少？

分类模型可预测的离散值。例如分类模型做出预测可回答如下问题：

1,某个指定电子邮件是垃圾邮件还是非垃圾邮件

2.这是一张狗还是猫或是老鼠图片？

问题构建 (Framing)：检查您的理解情况

预计用时：5 分钟

监督式学习

查看以下选项。

假设您想开发一种监督式机器学习模型来预测指定的电子邮件是“垃圾邮件”还是“非垃圾邮件”。以下哪些表述正确？

我们将使用无标签样本来训练模型。

未标记为“垃圾邮件”或“非垃圾邮件”的电子邮件是无标签样本。

有些标签可能不可靠。

主题标头中的字词适合做标签。

特征和标签

查看以下选项。

假设一家在线鞋店希望创建一种监督式机器学习模型，以便为用户提供合乎个人需求的鞋子推荐。也就是说，该模型会向小马推荐某些鞋子，而向小美推荐另外一些鞋子。以下哪些表述正确？

用户喜欢的鞋子是一种实用标签。

用户点击鞋子描述的次数是一项实用特征。

鞋码是一项实用特征。

鞋的美观程度是一项实用特征。

曹禺

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
1 机器学习-问题构建（Framing）

什么是（监督式）机器学习？简单来说，它的定义如下： --&gt;机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测。下面我们来了解下机器学习的基本术语。标签标签是我们要预测的事物，即简单线性回归中的y变量。标签可以是小麦未来的价格、图片中显示的动物品种、音频剪辑的含义或任何事物。特征特征是输入变量，即简单线性回归中的x变量。简单的机器学习项目可能会使用单个特征，...
复制链接

扫一扫

专栏目录