概率机器学习和人工智能(概率机器学习和人工intelligence_Nature2015)

转载 2016年07月25日 18:55:36

本次调查论文是从Zoubin Ghahramani,这是发表在Nature在2015年关于概率机器学习和人工智能。

网址:http://blog.csdn.net/shanglianlm/article/details/46723425

虽然probalilistic机器学习的概念很简单,

虽然概念上很简单,全概率方法机器学习带来了一些计算和建模的挑战。计算,主要的挑战是学习涉及边缘化(求和出)的所有模型,除了利益(专栏1)变量的变量。这样的高维和与积分通常是计算硬,在这个意义上,对于许多模型
存在用于精确地执行它们没有已知的多项式时间算法。幸运的是,许多的近似积分算法已经被开发,包括马尔可夫链蒙特卡洛(MCMC)方法,变近似值,期望传播和顺序蒙特Carlo23-26。值得一提的是,计算技术是其中贝叶斯机器学习从多机器学习的其余不同一个区域:为贝叶斯研究者的主要计算问题是集成的,而对于许多社区的其余部分的重点是优化模型参数。但是,因为它似乎这种二分法并不像鲜明:许多基于梯度的优化方法,可以通过使用朗之万和哈密顿蒙特卡洛methods27,28通过使用变成集成方法,而集成问题可以转化为优化问题变approximations24。我重温在后面的部分优化。

用于概率机器学习主造型的挑战是,该模型应该具有足够的灵活性以捕获来实现感兴趣的预测任务所需的数据的所有属性。一种方法来应对这一挑战是建立一个先验分布,涵盖了可以在复杂适应数据模型一个开放式的宇宙。在与数据复杂性的增长的关键统计概念底层柔性模型是非参数变化。

概率模型和代表的不确定性

通过非参数变化的灵活性

概率编程

基本思想概率编程是使用计算机程序来表示概率模型http://probabilistic-programming.org)[] [] []。

要做到这一点的一种方法是对所述计算机程序以限定用于从所述概率模型数据生成器,也就是一个仿真器(图2)。这个模拟器使得在这样一种方式,重复运行从模拟器会从模型采样不同的可能的数据集调用一个随机数发生器。 
这里写图片描述

概率规划提供推广图形模型的一个优雅的方式使车型更丰富的表示,因为电脑程序可以允许的结构,如递归(函数调用本身)和 控制流语句(例如,“如果”这导致多个路径语句一个程序可以遵循)。

事实上,对于许多是基于最近的概率编程语言的延伸图灵完整的语言(包括几乎所有常用语言的类),它可以代表任何可计算概率分布作为概率程序[]。


全部潜力概率节目来自自动化推断模型条件的观测数据不可观测变量的过程中(专栏1)。从概念上讲,空调需要
计算该生成数据相匹配的节目的输入状态
观测数据。而通常我们认为,从运行的程序
输入输出,调理涉及解决的逆问题
推断投入(特别是随机数调用)匹配
一定的程序输出。这种调节是通过一个“通用的推理引擎”,通常是通过蒙特卡罗抽样实施进行
了仿真程序是一致的可能的执行
与观察到的数据。事实定义这种普遍推理
计算机程序算法甚至可能是有些令人惊讶的,但它是从抽样有关的某些关键思想的一般性
诸如拒绝采样,顺序蒙特卡洛methods25和
“近似贝叶斯computation'49。


举个例子,假设你写一个概率的程序,模拟了涉及不可测转录的基因的监管模式
因素某些基因的表达水平。你在每个不确定性
的模型的一部分将由概率分布来表示
在仿真中使用。然后通用推理引擎可以调节
所测量的表达水平这个程序的输出,并自动推断不可测量转录因子和活性
其他不确定模型参数。概率的另一种应用
程序实现的计算机视觉系统作为一个逆
计算机图形program50。


有几个原因概率节目可能被证明是革命性机器智能和科学模型。

-首先,通用推理引擎省却了手工推导模型的推断方法因为导出并实施推理方法一般是在建模最限速和容易出错的步骤,经常服用月,所以,它需要几分钟或几秒钟将大大加快机器学习系统的部署自动化此步骤。

-第二,概率规划可能是科学的潜在变革,因为它允许快速原型和数据的不同型号的测试概率编程语言创建模型和推理过程之间一个非常明确的区分,鼓励基于模型的思考 [] 。

有越来越多的概率编程语言。BUGS,斯坦,AutoBayes和Infer.NET只允许限制性级别的车型基于图灵完备的语言系统相比,来表示。为了回报这个限制,推断在这样的语言可以比更一般的语言,如IBAL,BLOG,教堂,费加罗报,创业和英国国教快得多。近期工作的主要重点是在一般的语言快速推断。

几乎所有的办法,概率编程是贝叶斯因为很难创造的不确定性自动推理等连贯的框架。

值得注意的例外是系统如Theano,它本身不是一个概率的编程语言,但使用符号微分加快和自动化的神经网络等概率模型[]的参数优化。

贝叶斯优化

这里写图片描述

数据压缩

考虑压缩数据以便传达或将它们在尽可能少的比特尽可能存储以这样的方式,原来数据能够准确地从压缩数据被恢复的问题。这样的无损数据压缩方法是在信息技术无处不在,从计算机硬盘驱动器在互联网上传输数据。数据压缩和概率模型是同一枚硬币的两面,和贝叶斯机器学习方法正越来越多地推进国有OF-最先进的压缩。压缩和概率模型之间的连接建立在数学家香农的开创性工作的源编码定理77],其中指出,在以无损的方式来压缩数据所需的比特数是由该概率分布的熵界数据所有常用无损数据压缩算法(例如,gzip的)可以被看作是符号序列的概率模型

贝叶斯机器学习的链路是更好的概率模型中的一个学习,较高的压缩率可以是 78 []。这些模型需要灵活和适应性,因为不同种类的序列有非常不同的统计模式(例如,莎士比亚的戏剧或计算机源代码)。事实证明,一些世界上最好的压缩算法(例如,序列Memoizer79 []和动态参数PPM更新80 [])相当于序列的贝叶斯非参数模型,并改善压缩正在通过更好地制成如何学习序列的统计结构的理解。
在压缩未来进展将配备在概率学习机,包括如图像,图表和其它结构化对象的非顺序数据的特殊的压缩方法的进步。

从数据可解释模型的自动发现

其中一个机器学习的重大挑战是完全自动化的学习和解释数据统计模型的过程。这是自动统计员(目标http://www.automaticstatistician.com),一个系统,可以自动发现从数据可信的模型,并解释了它在平原English81发现。这可能是有用的努力是对从数据提取知识依赖的几乎任何领域。相反在许多机器学习文献中,已集中在提取使用诸如核方法,随机森林或深学习上的模式识别问题提高性能的改进所描述的方法中,自动统计员生成所组成可解释模型部件,并具有约占给出的数据模型结构不确定性的原则性方法这也给了合理的答案,不只是大的数据集,也为小的。贝叶斯方法提供交易掉了模型的复杂性和数据的复杂性优雅的方式,和概率模型成分和可解释的,如前所述。

这里写图片描述
这里写图片描述
自动统计员的原型版本发生在时间序列数据,并自动生成5-15描述它已发现的模型(图4)页的报告这个系统是基于这样的思想即概率积木可以通过一个语法被组合以模型[] 82 buildan开放式语言。在对比等式工作学习(参见例如参考文献[] 83),该模型试图捕捉的函数的一般特性(例如,平滑度,周期性或趋势),而不是一个准确的公式处理不确定性是在自动统计师的核心; 它利用贝叶斯非参数变化的给它的灵活性来获得国家的最先进的预测性能,并采用公制边际可能性(专栏1)搜索模型的空间。

重要的早期工作包括统计专家系统[] [] 84,85和机器人科学家,这与微生物学实验平台集成机器学习和科学发现在闭环自动化的新实验[] 86.自动设计和执行-WEKA是最近的一个项目,它可以自动学习分类,使得大量使用已经描述[] 71.努力实现自动化的机器学习方法,以数据的应用程序最近势头贝叶斯优化技术,并可能最终导致人工智能系统数据科学。

透视

信息革命导致了越来越大的数据集合的可用性。什么是不确定性的建模这样的大数据的作用?经典的统计结果指出,在一定的规律性条件下,在大型数据集数量上限为贝叶斯参数模型参数的后验分布收敛到周围的最大似然估计的单点这是否意味着不确定性贝叶斯概率模型是不必要的,如果你有大量的数据?

至少有两个原因,这是不是这样的[] 87.首先,正如我们所看到的,B ** ayesian非参数模型有本质上无限多的参数**,所以无论有多少数据的一个拥有他们的能力学习应该不会饱和而他们的预测应继续改善

其次,许多大型数据集的小数据集的事实大集合例如,在诸如个性化医疗和推荐系统的地区,有可能是一个大的数据量,但仍然存在用于分别各患者或客户端,数据的量相对较少。在层次结构和耦合这些模型在一起,使信息可以从其他类似的人借用-要自定义每个有必要建立每个人的模型预测的人-其固有的不确定性。我们称这种模型的个性化,以及采用分层贝叶斯方法如分级狄利克雷过程[] 36,以及贝叶斯多任务学习[] [] 88,89其是天然实现。

概率方法机器学习和智力是有超越传统的模式识别问题广泛影响力的研究非常活跃的领域。正如我刚才所述,这些问题包括数据压缩,优化,决策,科学模型的发现和解释,以及个性化。问题之间的主要区别,其中一个概率方法是很重要的,并且可以用非概率机器学习来解决问题方法是不确定是否具有核心作用此外,大多数传统的基于优化的机器学习方法有处理更坚持原则的不确定性概率的类似物。例如,贝叶斯神经网络代表了神经网络[] 44的参数不确定性,以及混合模型是聚类方法[]一个概率模拟78.虽然概率机器学习通常定义了如何解决问题的原则,在中央的挑战字段是找到如何在计算上高效的方式[] [] 90,91这样做实际上。有许多方法来计算的硬推理问题的高效近似。现代推理方法已经使得有可能扩展到数百万个数据点,使得概率方法与常规的方法[] [] [] [] 92-95计算竞争力。最终,情报依赖于理解和表演在不完全感觉到和不确定的世界。概率模型将继续在更强大的机器学习和人工智能系统的发展中发挥核心部分。

贝叶斯学习机
有概率论中两个简单的规则(概率论)的总和规则: 产品的规则: 总和规则规定的边际
这里写图片描述 

这里写图片描述 
P点¯x  的 X 由求和(或连续变量整合)共同获得过 ÿ该产品规则规定,合资P点¯x ÿ 可以分解为边际的产物 P点¯x  和条件 Pÿ|点¯x 。 
贝叶斯法则是上述两个规则的推论: 为了概率理论应用到机器学习,我们替换
这里写图片描述 
X 通过 ð 以表示所观察到的数据,并更换 ÿ 通过 θ来表示一个模型中的未知参数。我们还调节所有条款上,类概率模型,我们正在考虑。因此,我们得到 的地方
这里写图片描述 
PРθ  是的参数的可能性 θ 模型 , Pθ | 是的先验概率 θ 和 Pθ | ð  是的后 θ 给定的数据 ð
学习是有关参数的先验知识或假设的转型Pθ |通过数据 ð,进入有关参数后的知识, Pθ | ð 此后,现在将用于将来的数据事先。
一个学习模型可以用于预测或预测新看不见的测试数据,ðŧ Ë 小号Ť通过简单地将之与产品规则获得预测: 最后,不同的型号可通过在米级应用贝叶斯法则比较: 术语
这里写图片描述 

这里写图片描述 
PР| 是边际可能性或模型的证据,并实现了被称为贝叶斯奥卡姆剃刀简单的模型的偏好。

参考文献及相关材料:
[1] 概率机器学习和人工智能

45.Koller,D.,McAllester,D&普费弗A.有效贝叶斯推理的随机
程序。在PROC。人工智能740-747第14届全国大会
(1997年)。
46.Goodman,ND和Stuhlmüller,A的设计与概率的实现
编程语言。可在http://dippl.org(2015年)。
47.Pfeffer,A.实际概率编程(曼宁,2015年)。
48.Freer,C.,罗伊,D&特南鲍姆,JB在图灵的遗产(主编唐尼,R),
195-252(2014)。
49.Marjoram,P.,黄粉虫,J.,Plagnol,V&Tavaré,S.马尔可夫链蒙特卡罗
没有可能性。PROC。国家科学院院报。科学。美国100,15324-15328(2003)。
50.Mansinghka,五,库卡尼,TD,佩罗夫,YN和特南鲍姆,J.近似
使用生成概率图形图像贝叶斯解释
程序。在PROC。进展神经信息处理系统26 
1520年至1528年(2013年)。
51.Bishop,CM模式基于机器学习。菲尔。跨。R. SOC。371,
,20120222(2013)
这篇文章是概率模型的一个非常明确的教程阐述。
52.Lunn,DJ,托马斯,A.,最佳N.&Spiegelhalter于,D WinBUGS软件-贝叶斯
模型框架:概念,结构和可扩展性。统计。COMPUT。10,
325-337(2000)。
此报告的早期概率编程框架广泛应用于
统计
64.Bergstra,J。等。Theano:CPU和GPU的数学表达式编译器。在PROC。
在科学大会9日的Python http://conference.scipy.org/proceedings/ 
scipy2010 /(2010年)。

77.Shannon,C和韦弗,通信W.数学理论(大学,
伊利诺伊出版社,1949年)。
78.MacKay,DJC信息理论,推理和学习算法
(剑桥大学出版社,2003年)。
79.Wood ,F.,的Gasthaus,J.,Archambeau,C,詹姆斯L.&德,YW序列
memoizer。COMMUN。ACM 54,91-98(2011)。
本文推导基于一个国家的最先进的数据压缩方案
贝叶斯非参模型。
80.Steinruecken,C.,Ghahramani,Z.麦凯,与DJC提高PPM 
动态参数更新。在PROC。数据压缩会议(在
新闻)。

81.Lloyd,JR,Duvenaud,D.,格罗斯,R.,特南鲍姆,JB&Ghahramani,Z. 
自动构建和非参数的自然语言描述
回归模型。在PROC。第28届AAAI会议人工智能
预印在:http://arxiv.org/abs/1402.4304。(2014)
介绍了自动统计员,翻译学概率
模型到有关数据的报告。
82.Grosse,RB,Salakhutdinov,R&特南鲍姆,JB开拓组合性
,探讨模型结构的空间大。在PROC。会议的不确定性
人工智能306-315(2012)。
83.Schmidt,M.&李碧菁,从实验H.蒸馏自由形式的自然法则
的数据。,科学324,81-85(2009)
84.Wolstenholme,DE,奥布莱恩,CM&内尔德,JA一瞥:以知识为基础
进行统计分析前端。Knowl。基础。SYST。1,173-178(1988)。
85.Hand,在统计的战略DJ模式。在人工智能和统计
(ED大风,WA)(Addison-Wesley出版社朗文,1986)。
86.King,RD等。功能基因组学的假设生成和
试验由机器人科学家。自然427,247-252(2004)

87.Welling,M。等。贝叶斯推理与大数据:从车间快照
ISBA公告21,https://bayesian.org/sites/default/files/fm/bulletins/1412
PDF(2014年)。
88.Bakker,B.&Heskes, T.任务集群和门控贝叶斯多任务
学习。J.马赫。学习。水库。4,83-99(2003)。
89.Houlsby,N.,埃尔南德斯,洛巴托,JM,Huszár,F&Ghahramani,Z.协作
高斯过程的偏好学习。在PROC。在神经进展
。信息处理系统26 2096年至2104年(2012年)
90.Russell,SJ及Wefald,大肠杆菌做正确的事:在有限理性的研究(MIT 
出版社,1991年)。
91.Jordan,MI统计,计算和可扩展性。伯努利19日,1378至1390年
(2013年)。
92.Hoffman,M.,Blei,D.,佩斯利,J.&王C.随机变推断。
J. 马赫。学习。水库。14,1303年至1347年(2013年)。
93.Hensman,J.,副食,N.&劳伦斯,ND大数据高斯过程。在PROC。
会议的不确定性人工智能244(UAI,2013年)。
94.Korattikara,A.,陈,Y.和威灵,米在紧缩土地MCMC:切割
大都市黑斯廷斯预算。在PROC。31日国际会议上机
学习181-189(2014)。
95.Paige,B.,木材,F.,杜塞,答:德,YW异步随时顺序
蒙特卡洛。在PROC。在神经信息处理系统的进步27 
3410-3418(2014)。

机器学习中应用到的概率论的知识(作为回顾)

概率论的回顾。机器学习中用到的概率论。
  • Wried
  • Wried
  • 2017年07月09日 10:53
  • 1335

机器学习中概率论知识复习

机器学习先验知识概率论部分
  • u012566895
  • u012566895
  • 2016年05月05日 11:23
  • 7428

机器学习预备知识之概率论(上)

机器学习必需的概率论知识
  • sky_walker85
  • sky_walker85
  • 2014年11月15日 21:27
  • 3937

【机器学习】机器学习(一)——基于概率论的分类

一. 分类的概率论基础        贝叶斯分类准则为:         ★如果,那么属于类别         ★如果,那么属于类别         应用贝叶斯准则: 可以通过已知的三个概率值来计算...
  • shandianke
  • shandianke
  • 2015年02月04日 22:20
  • 2433

机器学习基于概率论观点 Machine Learning - A Probabilistic Perspective pdf

  • 2015年12月22日 21:41
  • 24.96MB
  • 下载

机器学习——朴素贝叶斯(基于概率论的分类方法)

前言 分类器有时会产生错误结果,这是要求分类器给出一个最优的类别猜测结果,同时给出这个猜测的概率估计值。 1.使用概率论分布进行分类 2.学习朴素贝叶斯分类器 3.解析RSS源数据 4.使用朴素贝叶...
  • u010343650
  • u010343650
  • 2016年12月19日 14:54
  • 1292

机器学习数学原理(1)——极大似然估计法

机器学习数学原理(1)——极大似然估计法事实上机器学习的大部分算法都是以数理统计和概率论为理论基础构建的。笔者在学习机器学习的过程中,意识到其实机器学习中的很多假设背后都是有着数学原理支撑的,从而使得...
  • z_x_1996
  • z_x_1996
  • 2017年04月14日 23:21
  • 2758

机器学习之极大似然估计

极大似然估计基本思想极大似然估计是在总体类型已知的条件下使用的一种参数估计方法。 首先是德国数学家高斯在1821年提出的,然而这个方法常归功于英国统计学家费歇。 极大似然法的基本思想通过一...
  • weiyudang11
  • weiyudang11
  • 2016年05月28日 10:47
  • 1998

MLAPP——机器学习的概率知识总结

选到了《jiqixuexi》
  • u010487568
  • u010487568
  • 2014年10月12日 16:31
  • 3911

机器学习的概率与统计知识复习总结

机器学习中,很多算法的推导,需要概率和统计的很多知识。学校里学的时候,基本是囫囵吞枣,也忘得差不离了。 现在复习一下,找一些概率与统计这门课的感觉。主要理解下什么是随机变量,与概率的关系,要样本干什么...
  • viewcode
  • viewcode
  • 2013年04月25日 11:03
  • 10081
收藏助手
不良信息举报
您举报文章:概率机器学习和人工智能(概率机器学习和人工intelligence_Nature2015)
举报原因:
原因补充:

(最多只允许输入30个字)