【论文翻译】Machine learning: Trends, perspectives, and prospects

摘要
(机器学习解决的问题是如何创造出可以通过经验自动改进的计算机。它是当今发展最快的技术领域之一,位于计算机科学和统计学的交叉点,是人工智能和数据科学的核心。机器学习的最新进展是由新的学习算法和理论的发展以及在线数据和低成本计算的持续爆炸所推动的。数据密集型机器学习方法的采用可以在科学、技术和商业中找到,从而导致在许多行业,包括医疗保健、制造业、教育、金融建模、警察和市场营销等领域进行更多基于证据的决策。)
正文
机器学习是一门专注于两个相互关联的问题的学科:“如何构建一个通过经验自动改进的计算机系统?”以及“支配着所有的学习系统(包括计算机、人类和组织)的统计计算信息论的基本定律是什么?”。机器学习的研究对于解决这些基本的科学和工程问题以及高度实用的计算机软件具有重要的意义。
在这里插入图片描述机器学习在过去的二十年里取得了巨大的进步,从实验室的好奇到广泛商业应用的实用技术。在人工智能(AI)中,机器学习已经成为开发计算机视觉、语音识别、自然语言处理、机器人控制和其他应用的实用软件的首选方法。许多人工智能系统的开发人员现在认识到,对于许多应用来说,通过展示期望的输入-输出行为的例子来训练一个系统要比通过预测所有可能输入的期望响应来手动编程要容易得多。机器学习的影响在计算机科学和涉及数据密集型问题的一系列行业中也得到广泛的感受,如消费者服务、复杂系统故障诊断和物流链控制。在从生物学到宇宙学到社会科学的经验科学中也有类似广泛的影响,因为机器学习方法已经被开发出来以新的方式分析高通量的实验数据。图中是有关机器学习的一些最新应用领域的描述。
学习问题可以定义为在执行某项任务时,通过某种类型的培训经验来提高某种绩效的问题。例如,在学习检测信用卡欺诈时,任务是给任何给定的信用卡交易指定一个“欺诈”或“不欺诈”的标签。需要改进的性能指标可能是该欺诈分类器的准确性,而培训经验可能包括一组历史信用卡交易,每一笔交易回顾起来都被标记为欺诈或不欺诈。或者,可以定义一个不同的绩效指标,当“欺诈”被标记为“非欺诈”时,会比“不欺诈”被错误地标记为“欺诈”时分配更高的惩罚。也可以定义不同类型的培训经验,例如,通过包括未标记的信用卡交易和有标签的例子。
已经开发了一系列不同的机器学习算法,以涵盖不同机器学习问题中显示的各种数据和问题类型。从概念上讲,机器学习算法可以看作是在训练经验的指导下,在大量候选程序空间中搜索,找到一个优化性能指标的程序。机器学习算法变化很大,部分原因在于它们表示候选程序的方式(例如,决策树、数学函数和通用编程语言),部分原因在于它们在程序空间中进行搜索的方式(例如,具有充分理解的收敛保证的优化算法和评估随机突变程序的连续代的进化搜索方法)。在这里,我们关注迄今为止特别成功的方法。
许多算法侧重于函数逼近问题,其中任务体现在函数中(例如,给定一个输入事务,输出一个“欺诈”或“不欺诈”标签),学习问题是提高该函数的准确性,经验包括函数的已知输入输出对的样本。在某些情况下,函数显式表示为参数化函数形式;在其他情况下,函数是隐式的,并通过搜索过程、因子分解、优化过程或基于仿真的过程获得。即使是隐式的,函数通常也依赖于参数或其他可调自由度,而训练对应于为这些参数寻找优化性能指标的值。
无论学习算法是什么,一个关键的科学和实用的目标是从理论上描述特定学习算法的能力和任何给定学习问题的固有困难:算法如何准确地从特定类型和数量的训练数据中学习?该算法对其建模假设中的错误或对训练数据中的错误的鲁棒性如何?给定一个学习问题,在给定的训练数据量下,有没有可能设计出一个成功的算法,或者这个学习问题从根本上说是难以解决的?这种机器学习算法和问题的理论描述通常使用统计决策理论和计算复杂性理论的常见框架。事实上,从理论上描述机器学习算法的尝试导致了统计理论和计算理论的融合,其中的目标是同时描述样本的复杂性(准确学习需要多少数据)和计算复杂性(计算量)并指定这些如何依赖于学习算法的特性,例如它所学内容的表示。近年来被证明特别有用的计算分析的一种具体形式是优化理论,优化过程的收敛速度的上下界与机器学习问题的表述很好地结合在一起,作为性能指标的优化。
作为一个研究领域,机器学习处于计算机科学、统计学和其他各种学科的十字路口,这些学科涉及随着时间的推移自动改进,以及在不确定性下的推理和决策。相关学科包括人类学习的心理学研究、进化研究、适应性控制理论、教育实践研究、神经科学、组织行为学和经济学。尽管在过去的十年中,与这些其他领域的串扰有所增加,但我们才刚刚开始挖掘潜在的协同效应,以及在这些多个领域使用的形式和实验方法的多样性,以研究随着经验而改进的系统。
机器学习进程的驱动因素
在过去的十年里,网络化和移动计算系统收集和传输大量数据的能力迅速增长,这一现象通常被称为“大数据”。收集这些数据的科学家和工程师经常求助于机器学习来解决获取有用见解的问题,这些数据集的预测和决策。事实上,数据的巨大规模使得开发融合计算和统计考虑的可伸缩程序变得至关重要,但问题不仅仅是现代数据集的大小,而是这些数据的粒度和个性化特性。移动设备和嵌入式计算允许收集大量关于人类个体的数据,而机器学习算法可以从这些数据中学习,以根据每个人的需要和环境定制他们的服务。此外,这些个性化服务可以连接起来,这样就形成了一个整体服务,它利用了来自许多个人的丰富和多样的数据,同时仍然可以根据每个人的需要和情况进行定制。捕捉和挖掘大量数据以提高服务和生产率的趋势在商业、科学和政府的许多领域都可以找到。历史医疗记录用于发现哪些患者对哪种治疗反应最好;历史交通数据用于改善交通管制和减少拥堵;历史犯罪数据用于帮助在特定时间将当地警察分配到特定地点;大量的实验数据集被捕获和管理,以加速生物学、天文学、神经科学和其他数据密集型经验科学的发展。我们似乎正处于一个长达数十年的趋势的开端,这一趋势在科学、商业和政府的许多方面越来越依赖于数据、基于证据的决策。
随着大规模数据在人类各个领域的日益突出,对底层机器学习算法提出了新的要求。例如,巨大的数据集需要计算上可处理的算法,高度个人数据增加了对最小化隐私影响的算法的需求,大量未标记数据的可用性提出了设计学习算法以利用它的挑战。接下来的部分将介绍这些需求对机器学习算法、理论和实践的最新工作的一些影响。

核心方法和最新进展
最广泛使用的机器学习方法是监督学习方法。有监督的学习系统,包括电子邮件的垃圾邮件分类器、基于图像的人脸识别器和针对患者的医疗诊断系统,都是前面讨论过的函数近似问题的例子,其中训练数据采用(x,y)对集合的形式,目标是生成一个预测y*,以响应查询x*。输入x可能是经典向量,y可能是更复杂的对象,比如文档、图像、DNA序列或图形。类似地,研究了许多不同类型的输出。在简单的二元分类问题中,y取两个值中的一个(例如,“垃圾邮件”或“非垃圾邮件”)已经取得了很大的进展,但是对于诸如多类分类(y取K个标签中的一个)的问题也有大量的研究,多标签分类(其中y由多个K标签同时标记)、排序问题(其中y在某个集合上提供偏序)和一般结构化预测问题(其中y是组合对象,例如图,其组件可能需要满足某些约束集)。后一个问题的一个例子是词性标注,目标是同时将输入句子x中的每个单词标记为名词、动词或其他词性。监督学习还包括y具有实值分量或离散分量与实值分量的混合的情况。
有监督学习系统通常通过学习映射f(x)形成预测,f(x)为每个输入x产生一个输出y(或y给定x上的概率分布)。存在许多不同形式的映射,包括决策树、决策森林、逻辑回归、支持向量机、神经网络、核机器和贝叶斯分类器。人们已经提出了各种学习算法来估计这些不同类型的映射,还有一些通用的过程,如增强学习和多核学习,它们结合了多种学习算法的输出。从数据中学习 f 的过程通常利用最优化理论或数值分析的思想,以机器学习问题的具体形式(例如,目标函数或待集成的函数通常是大量术语的总和)推动创新。学习体系结构和算法的多样性反映了应用程序的不同需求,不同的体系结构捕获了不同种类的数学结构,为事后可视化和解释提供了不同程度的适应性,并在计算复杂度之间提供了不同的权衡,数据量和性能。
近年来,监督学习的一个重要进展领域涉及深度网络,它是由阈值单元组成的多层网络,每个网络都计算其输入的一些简单的参数化函数。深度学习系统利用基于梯度的优化算法,根据输出的误差调整多层网络中的参数。利用现代并行计算体系结构,如最初为视频游戏开发的图形处理单元,可以构建包含数十亿个参数的深度学习系统,这些系统可以根据互联网上提供的大量图像、视频和语音样本进行训练。近年来,这种大规模的深度学习系统在计算机视觉和语音识别方面产生了重大影响,与以前的方法相比,它们在性能上取得了重大改进(见图2)。从自然语言翻译到协作过滤,深层网络方法正被广泛应用。在这里插入图片描述
使用深度网络自动生成图像的文本标题。训练一个卷积神经网络来解释图像,然后它的输出被训练成生成文本标题(top)的递归神经网络使用。底部的序列显示了网络对输入图像不同部分的逐字焦点,同时逐字生成标题。
深层网络的内部层可以看作是提供输入数据的学习表示。虽然深度学习的许多实际成功来自于发现这种表示的监督学习方法,但也努力开发深度学习算法,以发现输入的有用表示,而不需要标记的训练数据。一般的问题被称为无监督学习,这是机器学习研究的第二种方法。
广义地说,无监督学习通常涉及在假设数据的结构属性(例如代数、组合或概率)下对未标记数据进行分析。例如,我们可以假设数据位于低维流形上,目的是从数据中显式地识别该流形。降维方法包括主成分分析、流形学习、因子分析、随机投影和自动编码器-对底层流形(例如,它是线性子空间、光滑非线性流形或子流形集合)做出不同的具体假设。降维的另一个例子是图3所示的主题建模框架。定义了一个包含这些假设的准则函数,通常利用一般统计原理,如最大似然法、矩量法或贝叶斯积分,并开发优化或抽样算法来优化准则。另一个例子是,聚类是在没有表示所需分区的显式标签的情况下,找到观测数据的分区(以及预测未来数据的规则)的问题。已经开发了一系列的聚类程序,所有这些都是基于关于“聚类”性质的特定假设。在聚类和降维中,对计算复杂性的关注是最重要的,考虑到目标是利用特别大的数据集,如果不使用监督标签,这些数据集是可用的。在这里插入图片描述
主题模型。主题建模是一种分析文档的方法,其中文档被视为单词的集合,文档中的单词被视为由一组底层主题(由图中的颜色表示)生成。topics是单词之间的概率分布(最左边的一列),每个文档的特点是主题之间的概率分布(直方图)。这些分布是根据对文档集合的分析推断出来的,可以查看这些分布来对文档的内容进行分类、索引和汇总。

第三个主要的机器学习方法是强化学习。在这里,训练数据中可用的信息是有监督学习和无监督学习之间的中间信息。强化学习中的训练数据不是指示给定输入的正确输出的训练示例,而是假设只提供一个动作是否正确的指示;如果一个动作不正确,则仍然存在找到正确动作的问题。更一般地说,在输入序列的设置中,假定奖励信号指的是整个序列;在序列中,对单个行为的信任或责备并不直接提供。事实上,虽然研究了强化学习的简化版本强盗问题,其中假设在每个动作之后提供奖励,但是强化学习问题通常涉及一个一般的控制理论环境,其中学习任务是学习控制策略在未知的动态环境中行动的行动者的行动(一种“策略”),在这种行动中,学习到的策略被训练为针对任何给定状态选择动作,目标是随着时间的推移使其预期回报最大化。近年来,控制理论和运筹学研究的联系日益密切,马尔可夫决策过程和部分观察的马尔可夫决策过程等公式提供了联系点。强化学习算法通常使用控制理论文献中熟悉的思想,如策略迭代、值迭代、展开和方差缩减,并通过创新来解决机器学习的特定需求(例如,大规模问题,很少假设未知的动态环境,使用有监督的学习架构来表示策略)。同样值得注意的是,强化学习与心理学和神经科学数十年的学习工作之间有着密切的联系,其中一个显著的例子是使用强化学习算法来预测猴子学习将刺激光与随后的糖奖赏联系起来的多巴胺能神经元的反应。

尽管这三种学习范式有助于组织思想,但目前的许多研究涉及到这些范畴的融合。例如,半监督学习利用未标记的数据在有监督的学习环境中增加有标记的数据,而区分训练将为无监督学习开发的体系结构与利用标签的优化公式相结合。模型选择是一项广泛的活动,不仅使用训练数据来拟合模型,而且还可以从一系列模型中进行选择,并且训练数据不能直接指示要使用哪种模型,这一事实导致了使用针对强盗问题和贝叶斯优化程序。当学习者被允许选择数据点并询问培训师以请求有针对性的信息时,就会产生主动学习,例如未标记示例的标签。因果建模不仅仅是简单地发现变量之间的预测关系,而是要区分哪些变量会对其他变量产生因果影响(例如,高白细胞计数可以预测是否存在感染,但导致高白细胞计数的是感染)。许多问题影响了学习算法在所有这些范例中的设计,包括数据是成批可用还是随时间顺序到达,数据是如何采样的,学习模型的用户可解释的要求,以及当数据不符合先前的建模假设时出现的鲁棒性问题。

新兴趋势
机器学习的领域相当年轻,以至于它仍在迅速扩展,通常是通过发明由实际应用驱动的机器学习问题的新形式化。(一个例子是推荐系统的开发,如图4所述)推动这种扩展的一个主要趋势是对机器学习算法运行环境的日益关注。这里的“环境”一词在一定程度上指的是计算体系结构;而经典的机器学习系统涉及在一台机器上运行的单个程序,而现在机器学习系统通常部署在包括成千上万个处理器的体系结构中,因此,通信约束、并行性和分布式处理问题占据了中心地位。实际上,如图5所示,机器学习系统正越来越多地采取复杂的软件集合的形式,这些软件在大规模并行和分布式计算平台上运行,并为数据分析师提供一系列算法和服务。在这里插入图片描述

机遇与挑战

尽管机器学习在实践和商业上取得了成功,但它仍然是一个年轻的领域,有许多未被充分开发的研究机会。通过将当前机器学习方法与我们在自然发生的系统(如人类和其他动物、组织、经济和生物进化)中观察到的学习类型进行对比,可以看到其中一些机会。例如,虽然大多数机器学习算法的目标是从一个单一的数据源学习一个特定的功能或数据模型,但是人类显然从多年的不同训练经验中学习了许多不同的技能和知识类型,不管是有监督的还是无监督的,按照一个简单到更困难的顺序(例如,学习爬行先走,再跑)。这使得一些研究者开始探索如何构建计算机终身学习者或永不停歇学习者的问题,在一个整体架构中学习数千种相互关联的技能或功能,使系统能够在学习另一种技能的基础上提高其学习一种技能的能力。与自然学习系统相类比的另一个方面提出了基于团队的混合主动学习的思想。例如,当前的机器学习系统通常是孤立地操作来分析给定的数据,而人们通常是以团队的方式来收集和分析数据(例如,生物学家以团队的形式收集和分析基因组数据,将不同的实验和观点结合起来,在这个难题上取得进展)。新的机器学习方法能够与人类合作,共同分析复杂的数据集,这可能会将机器从海量数据中梳理出微妙的统计规律的能力与人类利用各种背景知识产生合理解释和建议新的能力结合在一起假设。机器学习的许多理论结果适用于所有的学习系统,无论是计算机算法、动物、组织还是自然进化。随着该领域的发展,我们可以看到机器学习理论和算法越来越多地为理解神经系统、组织和生物进化中的学习提供模型,并看到机器学习从这些其他类型学习系统的持续研究中受益。

与任何强大的技术一样,机器学习提出了一个问题,即社会应该鼓励和阻止它的哪些潜在用途。如前所述,近年来,受其经济价值的推动,收集新类型个人数据的趋势导致了明显的隐私问题。数据价值的不断增加也引发了第二个伦理问题:谁将有权访问和拥有在线数据,谁将从中获益?目前,企业收集的大量数据用于特定用途,从而提高了利润,很少或根本没有分享数据的动机。然而,如果将这些数据用于公益事业,那么即使从现有的在线数据中,社会能够实现的潜在利益也将是相当可观的。

为了说明这一点,考虑一个简单的例子,说明社会如何能够从今天已经在线的数据中获益,通过使用这些数据来降低传染病在全球范围内传播的风险。通过将来自在线来源的位置数据(例如,来自手机的位置数据、零售店的信用卡交易数据、公共场所和私人建筑的安全摄像头的位置数据)与在线医疗数据(如急诊室入院)相结合,今天,如果一个与他们有密切接触的人刚刚因传染病住进急诊室,提醒他们应该注意的症状和应该采取的预防措施,那么在今天实施一个简单的系统立即给个人打电话是可行的。在这里,个人隐私和公共健康之间显然存在着一种紧张和权衡,整个社会需要就如何进行这种权衡做出决定。然而,这个例子更重要的一点是,尽管数据已经在线,但我们目前还没有法律、习俗、文化或机制使社会能够从中受益,如果它愿意这样做的话。事实上,这些数据中的大部分都是私人拥有的,即使它们是关于我们每个人的数据。这些考虑表明,机器学习可能是21世纪最具变革性的技术之一。虽然不可能预测未来,但社会现在开始考虑如何使其利益最大化似乎至关重要。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值