MLAPP(翻译)—第一章

  1. 1  什么是机器学习

我们沉浸在信息中,渴望知识。—约翰奈斯比特。

我们正在进入大数据时代。例如,大约有1万亿个网页;每秒钟有一小时的视频上传到youtube上,每天的内容相当于10年的总和;1000多人的基因组,每一个都有3.8\times 10^{9}个碱基对,已被各种实验室测序;沃尔玛每小时处理超过100万笔交易,并且包含超过2.5千兆字节(2.5\times 10^{15})信息的数据库(Cukier 2010)等等。

这种大量的数据需要自动化的数据分析方法,这就是机器学习所提供的。特别是,我们将机器学习定义为一套可以自动检测数据中的模式,然后使用未发现的模式预测未来数据,或在不确定的情况下执行其他类型的决策(例如计划如何收集更多数据)。

本书认为解决这些问题的最好办法是使用概率论工具。概率论可以应用于任何涉及不确定性的问题。在机器学习中,不确定性有多种形式:给定一些历史数据如何做最好的预测?解释一些数据什么模型最好?执行下一步应该用什么测量等。机器学习的概率方法与统计领域相似,但在重点和术语方面略有不同。

我们将描述各种各样的概率模型,适用于各种各样数据和任务。我们还将描述各种学习和使用此类模型的算法。我们的目标不是开发一本专门技术的烹饪书,而是呈现一个统一的通过概率建模和推理的视角来观察这个领域。尽管我们会注意计算效率,但是关于如何将这些方法扩展到真正的海量数据集的细节在其他书籍中有更好的描述,如(Rajaraman and Ullman 2011; Bekkermanet al. 2011)

然而,应该注意的是,即使一个人有一个明显巨大的数据集,对于某些感兴趣的情况,数据点的有效数量可能非常少。实际上,跨越各种域的数据表现出称为长尾的属性,这意味着一些事物(例如,单词)非常常见,但大多数事物都非常罕见(见第2.4.6节详细信息)。例如,每天有20%的谷歌搜索从未出现过。这个意味着我们在本书中讨论的核心统计问题,涉及到从相对较小的样本量中归纳,仍然是非常重要,即使在大数据时代。

 

  1. 1.1  机器学习的分类

机器学习通常分为两种主要类型。在预测或监督学习方法,目标是学习一种映射从输入x到输出y,在给定输入输出对标签D=\left \{(x_i,y_i) \right \}_{i=1}^N,这里D被叫为训练集,N是训练样本数量。在最简单的设置中,每个训练输入x_i用数值的D维向量表示,比如说,一个人的身高和体重。这些被叫特征,属性或者协变量。然而,一般来说,x_i可以是一个复杂的结构化对象,例如图像,句子,电子邮件消息,时间序列,分子形状,图形等。

同样,输出或反应变量的形式原则上可以是任何形式,但是大多数方法都假定y_i是来自某个有限集的分类或定类变量,y_i\in \left \{ 1,\cdots ,C \right \}(如男性或女性),或者y_i是一个实值的标量(如收入水平)。当是y_i分类时,问题被称为分类或模式识别,当y_i是实值时,这个问题被称为回归,另一种变体,被称为序数回归,出现在标签空间y具有一些自然顺序的地方,例如等级a-f。

机器学习的第二种主要类型是描述性的或无监督的学习方法。这里我们只给出给定的输入,D=\left \{ x_i \right \}_{i=1}^N,目标是在数据中找到“有趣模式”。这是一个很少被明确定义的问题,因为我们没有被告知需要寻找什么样的模式,并且没有明显的误差度量标准可供使用(与监督学习不同,我们可以将给定x的y预测与观察值进行比较)。

还有第三种类型的机器学习,称为强化学习,这种学习很少被使用。 这对于如何学习行动或行为是很有用,当给定偶尔的奖励或惩罚信号时。(例如,考虑婴儿如何学会走路)不幸的是,RL超出了本书的范围,尽管我们确实在第5.7节中讨论RL的基础决策理论。参见例如(Kaelbling et al. 1996; Sutton and Barto 1998;Russell and Norvig 2010; Szepesvari 2010; Wiering and van Otterlo 2012)了解更多信息关于RL。

(a)
(b)

 

图1.1左:一些彩色形状的标记训练示例,以及3个未标记的测试用例。右:将训练数据表示为N×D设计矩阵。行i代表特征向量x_i。最后一列是标签,y_i\in\left \{ 0,1 \right \}。根据Leslie Kaelbling的一个数字。

  1. 2  监督学习

我们从讨论监督学习开始对机器学习的研究,这是在实践中最广泛使用的ML形式。

  1. 2.1 分类

在本节中,我们将讨论分类。这里的目标是学习从输入x到输出y的映射,其中y\in \left \{ 1,\cdots ,C \right \},其中c是类的数目。如果c=2,这被称为二分类(在这种情况下,我们通常假设y\in\left \{ 0,1 \right \});如果c>2,这被称为多类分类。如果类标签不是互斥的(例如,某人可能被分类为高的和强壮的),我们将其称为多标签分类,但最好将其视为预测多个相关的二分类标签(所谓的多输出模型)。当我们使用术语“分类”时,我们将指具有单个输出的多类分类,除非我们另有说明。

将问题形式化的一种方法是函数逼近。对于一些未知的函数f,我们假设y=f(x),学习的目的是估计函数f在给定一个标记训练集上,然后使用y=f(x)进行预测。(我们用帽子符号表示一个估计)我们的主要目标是对新输入进行预测,这意味着我们以前没有见过(这称为泛化),因为预测训练集上的输出很容易(我们只需查找答案)。

  1. 2.1.1  例子

作为分类的简单玩具示例,请考虑图中1.1(a)所示的问题。 我们有两类对象,分别对应标签0和1。输入是彩色形状。 这些已由一组D特征或属性描述,这些特征或属性存储在N×D设计矩阵X中,如图1.1(b)所示。 输入特征x可以是离散的,连续的或两者的组合。 除了输入之外,我们还有一个训练标签y的向量。

在图1.1中,测试用例是蓝色新月形,黄色圆形和蓝色箭头。 以前都没有见过这些。 因此,我们需要在训练集之外进行概括。一个合理的猜测是蓝色新月应该是y = 1,因为所有蓝色形状在训练集中都标记为1。 黄色圆圈是难分类,因为一些黄色的东西被标记为y = 1而一些被标记为y = 0,并且一些圆圈被标记为y = 1一些y = 0。因此,在黄色圆圈的情况下,不清楚正确的标签应该是什么。 同样,蓝色箭头的正确标签也不清楚。

  1. 2.1.2 概率预测的必要

要处理不明确的情况,如上面的黄色圆圈,需要返回一个概率。假定读者已经对概率的基本概念有了一些熟悉。如果没有,有必要,请参阅第2章进行复习。

在给定输入向量x和训练集D,我们将通过表示可能标签上的概率分布。通常,这表示长度为C的向量。(如果只有两个类,只返回单个p(y=1|x,D)就足够了,因为p(y = 1 | x,D)+ p(y =0 | x,D)= 1)在我们的符号中,我们明确表示概率是在测试输入x和训练集d上,将这些条件放在竖线的右侧。我们也在隐式地调节我们用来做预测模型的形式。在选择不同的模型时,我们将通过写p(y| x,d,m)来明确这个假设,其中m表示模型。但是,如果模型在上下文中是清晰的,为了简洁起见,我们将从符号中去掉m。

给定概率输出,我们总是能够使用“真实标签”来计算我们的“最佳猜测”

\hat{y}=\hat{f(x)}=ar\overset{c}{}g\underset{c=1}max p(y=c|x,D))

这对应于最可能的类标签,被称为分布p(y| x,d)的模式;它也被称为map估计(map代表最大后验概率)。使用最可能的标签是直观的,但是我们将在第5.7节中给出这个过程更正式的理由。

现在考虑一个例子,例如黄色圆圈,其中p(\hat{y}|x,D)远离1.0。在这种情况下,我们对自己的答案不是很有信心,所以最好说“我不知道”,而不是返回一个我们并不真正信任的答案。正如我们在第5.7节中所解释的,这在医学和金融等我们可能会规避风险的领域尤为重要。评估风险很重要的另一个应用程序是在播放电视游戏节目时,例如jeopardy。在这个游戏中,参赛者必须解决各种字谜和回答各种琐碎的问题,但如果回答错误,他们就会赔钱。2011年,ibm推出了一款名为watson的计算机系统,它击败了人类最危险的冠军。Watson使用了各种有趣的技术(Ferrucci等人,但就我们目前的目的而言,最相关的是它包含了一个模块,可以估计它对自己的答案有多自信。系统只有在充分确信答案是正确的情况下才会选择“嗡嗡”作响。类似地,谷歌也有一个名为smartass(广告选择系统)的系统,它可以根据你的搜索历史和其他用户、广告特定功能预测你点击广告的概率(metz 2010)。这种可能性被称为点击率或CTR,,可用于最大化预期利润。我们将在本书后面讨论系统背后的一些基本原则,比如smartass。

图1.2 20个新闻组数据中16242 x 100大小的子集。为了清楚起见,我们只显示1000行每一行是一个文档(表示为词袋模型字位向量),每一列是一个字。红线分隔了4个类,它们是(按降序排列的)comp、rec、sci、talk(这些是usenet组的标题)我们可以看到有一些词的子集,它们的存在或不存在都表示这个类。数据来自http://cs.nyu.edu/~roweis/data.html.NewsGroupsVisualize生成的图

1.2.1.3 真实世界的应用

分类可能是最广泛使用的机器学习形式,并已被使用来解决许多有趣的、通常很困难的现实问题。我们已经提到了一些重要的应用。下面我们再举几个例子。

文档分类和垃圾邮件过滤

在文档分类中,目标是对文档进行分类,例如网页或电子邮件消息,分为C类之一,即计算p(y = c | x,D),其中x是某些的文本表示。 一个特例是垃圾

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值