神奇的概率世界：从人们的生活到人工智能

最新推荐文章于 2022-10-14 17:19:25 发布

kklots

最新推荐文章于 2022-10-14 17:19:25 发布

阅读量4.4k

点赞数 5

分类专栏：机器视觉模式识别

本文链接：https://blog.csdn.net/kklots/article/details/9010171

版权

机器视觉模式识别专栏收录该内容

17 篇文章 0 订阅

订阅专栏

自己写的一篇老文章了，移到CSDN，打算以CSDN博客为主了。

在大学学习概率论的时候，总感觉有些枯燥和无趣，而且没有什么实际的用途，最近由于课题需要，研究了一下概率方面的书籍，才发现概率实际上用途广泛而富有魅力。

其实人类是非常善于使用概率的，只是我们没有意识到罢了。

在我们生活的这个世界，充满了太多的未知，如果每一件事情人们都使用精确的数学来描述或解释，计算量大得令人发狂。

比如：小张根据当时的时间买了一张彩票，结果中了500万。为什么他会中500万呢确数学来解释的话，就要分析小张的背景、买彩票的动机，还要分析摇号机当时的状态，为什么会摇中小张买的号码，甚至还要分析小张曾经遇到的危险、小张父母的结合、小张的祖先等等（为什么要分析这些，是因为任何一个因素出现变动的话，都会导致小张不会选中这个号，或者导致小张没有机会买到这次彩票，或者导致小张根本不存在，也就无法中奖了)。。。。。。如此多的条件综合在一起，一件简单的事情就变得复杂起来，甚至使用巨型计算机也无法完全分析，何况还存在着很多未被发现的未知因素，根本无法被精确描述，比如：如果小张买的号码早一分钟或者晚一分钟去彩票点，都不会中奖，因为他根据时间买的彩票，因此交通拥挤情况，甚至是空气的阻力等等，都应该被纳入到考虑范围中来。如此下去，小张中奖这件事情就根本无法讲清楚。

但是看看人们是怎样描述这件事情原因的：“小张运气好！”简简单单五个字，就把原来说不清的事情说清楚了。

“运气好”，是在概率领域才会存在的描述，在精确数学里，要么对，要么错，不会有又对又不对的事情；而在概率领域，任何事情都有可能发生有可能不发生，只是发生的可能性有大有小而已，如果一件好的事情发生概率极低，却发生了，就是“运气好”，而一件坏的事情发生概率极低，却发生了，就是“邪门了”，但无论如何，都没有说一件事情绝对只会怎样，不会怎样（当然，一些概率小到微乎其微的事情，人们也会说“绝对、一定”，这是因为描述的需要，一旦真的“邪门了”，人们也会解释的说“邪门了”）。

在日常生活中，人们都存在着大量的常识，这些常识往往都是一种概率估计。比如：今天天气不错，应该不会下雨；小张学习很勤奋，应该能考上好大学；小郑穿的衣服都是名牌，她老公一定很有钱。。。。诸如此类。

到这里，有人就会问：“说了半天，概率究竟是什么？为什么可以这样用？”

在人们生活中，往往会出现一些现象，这些现象，单从单个现象来看，会存在多种结果，比如买彩票，会出现中奖不中奖两种情况，但如果从大量已发生的现象去观察，会发现有的结果出现得多，有的出现得少，比如100万人同时买彩票（或者也可以1个人重复买100万次彩票），我们会发现不中奖的远远高于中奖的，为了描述这种现象，我们用中奖的人比上总人数，来描述中奖事件的稀有程度，并把这种稀有程度描述成买彩票中奖这个现象的一种属性，由此产生了概率。

为什么会产生概率，为什么要使用概率呢，一件事情明明白白真真切切不是更好么，干嘛使用一个模糊的数字呢？

严格来讲，一件事情的发生的确不会是偶然的，现象的背后一定存在着精确的原因。但难就难在现实中许多事情原因太多，多得难以统计，且原因之间相互抵消，或者相互增强，没法搞清楚，如同上面讲到的小张买彩票的例子一样；另外，这些条件存在不可复制性，小张身上发生的事情，背后影响他的条件永远不会再次存在（这个和哲学中说的：人永远无法两次跨过同一条河流是一个意思），研究清楚了也无法复制；另外，现实中一定还存在着一些难以精确了解、难以精确描述的因素，比如：未知的定理、未探索的宇宙、难以考证的历史等等。

所以精确描述一件事情是非常困难的，但难以描述不等于就不管了，因为人要继续生活，彩票也要继续买，如果能够从历史中获得一些信息，产生一定的帮助，也是好事情。由于这些难以精确描述的事情总还是存在着一些相似的原因，因此总还是存在着一些关联一些相似性，于是人们就不断总结经验，从非常表面的层次去总结事件之间的相关性，于是常识，经验，或者称为先验概率之类的东西就产生了。

那么人们如何使用概率来解决实际问题呢？一个就是指导自己的行动：买彩票中奖概率太低，干脆别买了；另一种就是推导事件之间的联系：小张努力学习，通常努力学习都能考上好大学（概率高），读了好大学就能找到好工作（高概率），所以小张以后有出息！

因此概率并不是帕斯卡、费马、惠更斯、詹姆斯、伯努利、棣莫弗、拉普拉斯等大牛创造的，概率一直都存在于人们的生活当中，这些大牛只不过将概率用数学的方法精确的描述出来而已。

本来概率就这么用着，也没怎么引起人们的注意。偏偏有个叫贝叶斯的神父，天天想着用概率来证明上帝的存在，他这一捣鼓不要紧，结果给捣鼓出了一个贝叶斯公式并被发扬光大，甚至对现在最为前沿的人工智能领域都有着深远的影响。

为了搞清楚是怎么一回事，我们先来看看究竟什么是贝叶斯公式。

举个例子：一所学校里面有 60% 的男生，40%的女生。男生总是穿长裤，女生则一半穿长裤一半穿裙子。假设你走在校园中，迎面走来一个穿长裤的学生（很不幸的是你高度近似，你只看得见他（她）穿的是否长裤，而无法确定他（她）的性别），你能够推断出他（她）是男生的概率是多大吗？

有童鞋就笑了，这不简单么：穿裤子男孩的总数除以穿裤子人的总数，不就是答案了么。是的，我们将结果形式化一下：

其中P(boy|pants)表示穿裤子人中男孩所占的比例，P(pants|boy)表示男孩中穿裤子的比例，以此类推。

最终结果: = 60%*100%/(60%*100%+40%*50%)=75%;求穿裤子人中女孩比例的方法与此类似。

抽象出所有特定名词后，贝叶斯的公式表达式如下：

怎么样，很简单吧？

可能有些童鞋可能就不明白了，这个公式能和人工智能扯上什么关系呢？

现在我们把刚才的问题改改，不让你求具体概率是多少，而是问你他（她）是男生的可能性更高，还是女生的可能性高？这貌似和原来的问题没有区别，但仔细观察你会发现，由于我们只要求判断谁的可能性更高，因此不用计算精确值，判断概率谁大谁小就可以了；而且男生概率也好，女生概率也好，贝叶斯公式的分母都没有发生变化，因此只需要比较分子的大小就可以了。

于是原来的问题变成了求argmax (P(Bi)*P(A|Bi))，这个怎么理解呢？这样理解比较容易：一个穿裤子的人更可能是男生还是女生，根据两个条件进行比较：男生（女生）在学生总人数中的比例，以及男生（女生）穿裤子的概率，比较这两个值即可。很明显：男生占人数的60%，女生占40%；男生总是穿裤子（100%），而女生只有50%概率穿裤子，因此，这个人更可能是男生。

看出端倪了么，什么没有，那么我们举一个和计算机技术相关一点的例子，这个也是一个非常经典的例子。

当用户输入一个英语单词时，如果不是一个正确单词，那么计算机推算出用户最可能想输入的单词是哪一个，并显示到屏幕上。这其实是一个拼写检查器，目前goolge和baidu等搜索引擎都有的基本功能。那么我们该如何解决呢？

我们首先要解决的是如何判断一个单词是否拼写正确。这个不难实现，将所有单词录入一个单词库，再逐个比较即可。

其次，要判断当前写错的单词更可能是哪一个单词，就要比较单词谁的出现频率更高（男生所占比重和这个其实是一个意思，占的比重越大，出现的频率也就越高），以及谁更容易被误写成当前这个错误单词（和穿裤子的概率相似）。

但是这里有难题：因为英文单词太多，常用的少说也有万把个，逐个比较费时费力。这时让我们联想一下人是怎么解决这个问题的，当人猜测一个错写的单词时，通常会排除那些差异很大的单词，例如：看到worls这个词，会把hello、java等等不相干的词汇排除，只保留相似的如：word、world等等词汇，再从候选单词中选出出最合理的单词。因为常识（注意：常识出现了，先验概率出现了！）告诉我们，通常人们会写错单词，但不会错得面目全非。

好的，按照这个思想，我们只保留几个比较相似的单词作为候选单词，然后去比较它们的两个概率。

单词出现频率比较好办，我们建立一个文本库，录入大量的英文书刊杂志，然后去统计每个单词在文本库中出现的频率。

单词误写的概率就比较难办了，因为导致将单词错写成当前这个错误单词的原因有很多，比如：单词比较相似，键盘按键太小等等。为了简化解决方案，我们根据一个常识（又是常识，又是先验概率）：导致一个单词误写成另一个词语的主要原因是这两个词汇的相似度。相似度越高，误写率越高，因此设定备选单词与错写单词的相似度越高，P(A|Bi)值越高。

为了更简化过程，我们又做一个近似，干脆连P(Bi)*P(A|Bi)都懒得算了，而是这样设定：当有多个单词时，P(A|Bi)最高的单词直接胜出，例如：当前错误单词是happu，而备选单词有hap和happy，由于hap与happu差了2个字母，而happy只差了1个，因此直接选择happy，而不再计算hap和happy谁的出现的频率更高（这种假设肯定会导致判断精度下降，好处就是实现很容易）；当有多个单词的P(A|Bi)相同且P(A|Bi)同为最高时，再去计算P(Bi)谁大谁小。

于是一个单词拼写检查器就完成了。

我写了一个，下载地址： http://iask.sina.com.cn/u/ish?uid=1171839324

感兴趣的话大家可以下载试试。

现在我们再来考虑单词翻译：用户输入一个中文单词，将其翻译成英文单词。这个其实有其他方法实现，但是使用概率也可以完成。

和刚才一样，我们首先对候选词进行一次narrow，排除那些完全不沾边的英文词汇，只保留那些和这个中文单词有点沾边的英文词汇。

其次，计算每个英文候选词被理解为该中文词语的可能性，通常核心词义高于次要词义，次要词义高于引申词义，我们首先选择理解可能性最高的英文候选词作为答案，只有当多个候选词P(A|Bi)相同且P(A|Bi)同为最高时，再去计算P(Bi)，即出现频率谁大谁小。

于是，一个简单的中译英的词汇翻译工具就完成了。由于时间问题，没有去实现，但原理和刚才的拼写检查器是一样的。

好了，我们已经越来越接近人工智能的领域了，现在我们举一个人工智能领域的例子：用户输入一段英文，让计算机翻译成中文。

晃眼一看，似乎和刚才第二个例子没有太大区别，其实这里有着很大的难题。

根据贝叶斯公式，要判断P(S1，S2，S3，。。。，Sn)*P(O1，O2，O3，。。。，On| S1，S2，S3，。。。，Sn)，其中S1，S2，S3，。。。，Sn表示由若干的中文词语构成的一段话，O1，O2，O3，。。。，On表示由若干英文词语构成的一段话。

根据联合概率公式：P(S1，S2，S3，。。。，Sn) = P(S1)*P(S2|S1)*P(S3|S1,S2,S3)。。。。。这是一个非常令人头痛的问题，按照人类语言的理解，要探讨S1，S2，S3，。。。，Sn这段话构成中文语句的可能性，就要分析词语S1出现的概率，以及在S1出现的条件下，S2出现的概率，以及S1，S2出现的条件下，S3出现的概率，以及S1，S2，S3出现的情况下，S4出现的概率。。。如此下去，求解过程变得异常复杂。从人类理解的角度来讲，这要求计算机从概率的角度来解释清楚人类说一句话的语义是什么，这也是为什么计算机难以准确翻译长篇文章的原因。

由于贝叶斯没能解决上述问题，因此不得不引入其他的方法。目前最为流行，也是比较有效的方法，是引入隐马尔科夫模型，该模型给出了两个关键假设：即马尔科夫性与独立输出假设，使得上述问题得到解决，但这样做是有代价的，代价就是准确度的降低。即便如此，采用隐马尔科夫模型的概率翻译系统也比从前的系统进步得多。据统计：基于隐马尔科夫模型的翻译系统已将错误率由传统模式识别系统的30%降低到10%，不得不说是一大进步。

对于人工智能的其他领域：机器视觉、语音识别等等，我们不妨认为是将图画、语音翻译成文字的翻译系统，在根本上与上述系统是一样的，因此也能使用概率方法进行解决。

小小的概率却隐藏着如此多的神奇，不得不感叹数学的神奇！

kklots

关注

5
点赞
踩
42

收藏

觉得还不错? 一键收藏
0
评论
神奇的概率世界：从人们的生活到人工智能

自己写的一篇老文章了，移到CSDN，打算以CSDN博客为主了。在大学学习概率论的时候，总感觉有些枯燥和无趣，而且没有什么实际的用途，最近由于课题需要，研究了一下概率方面的书籍，才发现概率实际上用途广泛而富有魅力。其实人类是非常善于使用概率的，只是我们没有意识到罢了。在我们生活的这个世界，充满了太多的未知，如果每一件事情人们都使用精
复制链接

扫一扫