PRML前言&数学符号

前言&数学符号下载

模式识别和机器学习

文章在前言中首先提到模式识别和机器学习这两个学科的联系。作者认为两者只是一个同一个领域的两个不同方面。实际上如果做这个领域的学生或研究者还会与下面这些概念打交道:数据挖掘(知识发现),人工智能。这些概念有重叠的部分,相互之间也是有区别的。

模式识别

模式识别有时候也称为模式分类,所以从名称上来看的确是一门从工程中产生的学科,不是很严谨的说:它主要研究如何分类,我们可以把模式和类别等同起来。它也是这些学科(概念)中最为成熟的一个学科,所以应用广泛。最常见的模式识别的应用有语音识别,文字识别(或者是Optical Character Recognition,光学字符识别),这两方面已经进入商用。还包括指纹识别,医学图像诊断等。模式识别的研究这些年并不像其余的学科那么火,这点也可以从CCF(中国计算机协会)推荐的期刊和会议列表中看出,推荐的期刊有IEEE Trans on Pattern Analysis and Machine Intelligence(A),是和机器智能(人工智能 AI)相关的,Pattern Recognition(B),International Journal of Pattern Recognition and Artificial Intelligence(C),Pattern Analysis and Applications(C),Pattern Recognition Letters(C);会议由:IEEE Conference on Computer Vision and Pattern Recognition(A),International Conference on Pattern Recognition(C);只与模式识别相关的就只有3个,一个B类期刊,一个C类期刊,还有一个C类会议,和接下来看到的其余三者相比,显得很不起眼。

机器学习&人工智能

机器学习从名字上看就很牛,它专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。是人工智能的核心部件。显然是从计算机学科的角度去终极解决人类长久以来想解决的问题:如何让机器学习然后和人一样具有智能。

20世纪50年代,当计算机出现后,一批科学家开始探讨制造人工大脑的可能性,由此开启了人工智能的时代。人工智能是对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。 人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。主要的应用有:机器视觉,指纹识别,人脸识别,视网膜识别,虹膜识别,掌纹识别,专家系统,自动规划,智能搜索,定理证明,博弈,自动程序设计,智能控制,机器人学,语言和图像理解,遗传编程等。所以可以看到人工智能是一个包含多个类似模式识别,机器学习这样的的大的学科分支。

机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。可以看到机器学习更偏向预测:包括分类的预测,回归的预测等等。实际上现代的机器学习更多的时候是与人工智能是相提并论的。CCF有关机器学习和人工智能的会议和杂志就太多了,这里列出A类的杂志和会议。
期刊(推荐4个A类期刊,占了三个,还有一个是计算机视觉期刊,也可以认为是人工智能的一个小分支):
1.Artificial Intelligence
2.IEEE Trans on Pattern Analysis and Machine Intelligence
3. Journal of Machine Learning Research
会议(推荐7个A类会议,剩余的3个,两个与计算机视觉相关,一个与自然语言处理相关):
1. AAAI Conference on Artificial Intelligence
2. International Conference on Machine Learning
3. International Joint Conference on Artificial Intelligence
4. Annual Conference on Neural Information Processing Systems
可以看出这些年,机器学习和人工智能的火热程度。

数据挖掘

数据挖掘是这几个概念里出来最晚的,早期属于数据库研究的内容。因为随着数据库的发展,能存储的数据越来越多,于是产生了大量数据分析的需要。1989年Gregory Piatetsky-Shapiro 提出数据库中的知识发现(KDD)的概念。20世纪90年代初IBM的研究员提出了关联分析,也就是著名的“啤酒和尿布”的故事,使得数据挖掘在商业领域开始暂露头角。2003 年,Micheal Lewis 写的 《点球成金》 出版,是的多种体育联赛对参赛人员的筛选更加合理。(已经拍成电影,名字就是点球成金)。数据挖掘也是近十年以来最火的计算机研究领域之一,加上近年来新出的云存储等概念的推波助澜,使得数据挖掘也成为目前来看最有商业应用价值的一个计算机学科分支。

我个人觉得数据挖掘的出现并不让人惊讶。实际上我个人更倾向数据挖掘是统计分析的一种扩展(当然使用的方法是跟统计分析有根本性地差别)。博士一年级的时候,曾经好好阅读了一下统计分析的教程。在统计分析中,给我印象最深的是,总体庞大,所以需要通过采样来找到总体的性质。采样的标准就是尽可能的保证偏差越小越好。基本著名的国外统计教材基本上都是这个思路。等到了21世纪,存储部件的低廉价格使得人类可以存储越来越多的数据,加上手机这种易于携带的瘦客户端的出现,使得数据的手机也不同以往,变得容易和便捷。那么统计分析的重点就不再是如何设计更好的策略在总体中采样,因为得到的数据和总体比已经差得不太多。最简单的例子,2016年中国有近13亿人口,而手机上网用户超过9亿,就拿手机的定位来说,如果存储了每个手机上网用户的位置信息,那么在中国,每个人的位置,我们可以获取总体近3/4的数据,按照统计的观点,这种采样是无偏的。所以更多的时候,直接把数据本身当成总体。但是获取总体后的分析方法,显然和采样分析方法完全不同。所以产生了数据挖掘。

简单来说数据挖掘就是从数据中找到有价值的信息,当然这种有价值的信息不是简单的统计能分析出来的。数据挖掘的任务和机器学习的任务非常类似,包括:分类,聚类,异常点检测,而数据挖掘 独有的就是关联分析。

数据挖掘有多热,也可以通过CCF的推荐来看,就A类的会议和期刊来说,关于数据挖掘的有:
IEEE Transactions on Knowledge and Data Engineering(期刊)
ACM Conference on Management of Data
ACM Knowledge Discovery and Data Mining
International Conference on Research on Development in Information Retrieval
IEEE International Conference on Data Engineering
这些都是数据库中的A类会议和期刊,期刊中有3个非数据挖掘的期刊,而会议中还有一个是VLDB,也是和数据挖掘相关的,但主要是大规模数据系统的研究。说明一下A类的会议SIGIR是信息检索的顶会,我个人认为也算是数据挖掘的一个分支。

粗略对这几个学科进行了一下分类。PRML主要给出了常见分类,回归,聚类的算法的参数求解,以及基本概念的讲解。请注意,本书主要给出了参数的求解,而不是模型的设计,区分模型设计与参数求解是很重要的,这点我们会在后面的章节中看到。

虽然书中说,阅读此书的人可以没有机器学习和模式识别任何的知识,但是需要多元积分学和线性代数的只是,懂概率更好,不懂也没关系,因为书中会详细介绍概率论。这可能是Bishop站的高度不一样说出来的话。当真正要读这本书 ,粗略弄懂基本的概念,他说的这点基础知识是够了。但是要真正弄懂,我觉得需要以下条件:精通高等数学,精通高等代数,矩阵论(这两者是线性代数的升级和再升级版本),精通概率论,最好了解测度论(概率论的基础),精通各种优化算法:比如牛顿,拟牛顿,梯度下降,共轭梯度下降等等;还包括泛函分析(这个不需要深入),实变函数的知识。因为Bishop在用这些东西的时候,会信手拈来,不会给出推导过程,而你想推导,这些知识你需要去翻书,要懂,你就要精通这些。所以对于硕士高年级的学生来说,即使是博士一年级的学生,这本书还是很难的,需要的基础知识还是很广泛的。特别要提出的是最好对矩阵论熟悉,如果这样,整本书的难度会下降1/3。

习题吗,Bishop说了,最好自己都做了。然后是致谢!

数学符号

书中主要研究的对象是向量,所以符号多数是粗体。参数的求解会用到导数和偏微分。区间之所以不区分端点是否在区间内,是因为是否包含端点的区间对于测度来说(也就是概率值)一般没有影响。最后有一个不同的向量符号表示方法,主要是在前7章用到,那个最后出来的向量主要是用于回归中目标值的统一书写。书中有一些错误,大部分在勘误表中提出来,也有一些符号上的错误(我个人认为的,会在给出的时候说明,注,本书在我写博客前已经完整看过一遍,算是囫囵吞枣,但还是有印象的)

总体来说,从第三章开始都是这样一个套路:
提出模型,最优化求解参数,贝叶斯在该模型上的观点。

Bishop是坚定的贝叶斯观点拥护者,所以几乎每章,只要可能都会用贝叶斯的观点来解释或求解模型的参数(贝叶斯和普通模型的区别,从第三章就会看到)。我个人认为贝叶斯观点的确是个好工具,但是就是求解起来很麻烦。这个也会在随后的章节中有体现。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值