1 机器学习-问题构建(Framing)

      什么是(监督式)机器学习?简单来说,它的定义如下:

    -->机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测。

下面我们来了解下机器学习的基本术语。

标签

标签是我们要预测的事物,即简单线性回归中的y变量。标签可以是小麦未来的价格、图片中显示的动物品种、音频剪辑的含义或任何事物。

特征

特征是输入变量,即简单线性回归中的x变量。简单的机器学习项目可能会使用单个特征,而比较复杂的机器学习项目可能会使用数百万个特征,按如下方式指定:{x1,x2, ...xn}

在垃圾邮件检测器实例中,特征可能包括:

1.电子邮件文本中的字词

2.发件人的地址

3.发送电子邮件的时段

4. 电子邮件中包含“一种奇怪的把戏”这样的短语。

样本

样本是指数据的特定实例X。(我们采用粗体X表示它是一个矢量。)我们将样本分为以下两类:

1. 有标签样本

2,无标签样本

有标签样本 同时包含特征和标签。即 : labeled example:{features,label}:(x,y)

我们使用有标签样本来训练模型。在我们的垃圾检测器示例中,有标签样本是用户明确标记为“垃圾邮件”或“非垃圾邮件”的各个电子邮件。

例如,下表显示了从包含加利福尼亚州房价信息数据集中抽取5个标签样本

housingMedianAge
(特征)
totalRooms
(特征)
totalBedrooms
(特征)
medianHouseValue
(标签)
15 5612 1283 66900
19 7650 1901 80100
17 720 174 85700
14 1501 337 73400
20 1454 326 65500

 无标签样本包含特征,单不包含标签 unlabeled examples:{features, ?} :(x,?)

在使用有标签样本训练了我们的模型之后,我们会使用该模型来预测无标签样本的标签。在垃圾邮件检测器示例中,无标签样本是用户尚未添加标签的新电子邮件。

模型

模型定义了特征与标签之间的关系。例如垃圾邮件检测器模型可能会将某些特征与“垃圾邮件”紧密联系起来。我们来重点介绍一下模型生命周期的两个阶段:

训练 表示创建或学习模型。也就是说,您想模型展示有标签样本,让模型逐渐学习特征与标签之间的关系。

推断 表示将训练后的模型应用于无标签样本。也就是说,您使用训练后的模型来做出有用的预测(y')。例如在推断期间,您可要对新的无标签样本预测medianHouseValue。

回归与分类

回归模型可预测连续值。例如回归模型做出的预测可回答如下问题:

1.加利福尼亚州一栋房产的价值是多少?

2.用户点击此广告的概率是多少?

分类模型 可预测的离散值。例如分类模型做出预测可回答如下问题:

1,某个指定电子邮件是垃圾邮件还是非垃圾邮件

2.这是一张狗还是猫或是老鼠图片?



问题构建 (Framing):检查您的理解情况

预计用时:5 分钟

监督式学习

查看以下选项。

假设您想开发一种监督式机器学习模型来预测指定的电子邮件是“垃圾邮件”还是“非垃圾邮件”。以下哪些表述正确?

特征和标签

查看以下选项。

假设一家在线鞋店希望创建一种监督式机器学习模型,以便为用户提供合乎个人需求的鞋子推荐。也就是说,该模型会向小马推荐某些鞋子,而向小美推荐另外一些鞋子。以下哪些表述正确?








  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值