数学之美~阅读

最新推荐文章于 2019-03-17 18:46:40 发布

walkeao

最新推荐文章于 2019-03-17 18:46:40 发布

阅读量3k

点赞数 2

分类专栏：自然语言处理文章标签：数学之美-吴军自然语言处理信息处理搜索引擎数学

本文链接：https://blog.csdn.net/Walker_Hao/article/details/78800043

版权

本文深入探讨了数学在自然语言处理中的应用，包括统计语言模型、中文分词、隐马尔科夫模型、信息熵、布尔代数在搜索引擎中的作用、图论在网络爬虫中的应用以及信息指纹技术。通过这些数学原理，解决了诸如文本分类、网页相关性确定和地址识别等问题，揭示了数学在信息处理领域的强大威力。

摘要由CSDN通过智能技术生成

数学之美

数学之美

目录

统计语言模型

谈谈中文分词

隐马尔科夫在语言处理中的应用

怎样度量信息

布尔代数和搜索引擎的索引

图论和网络爬虫

信息论在信息处理中的应用

贾里尼克的故事和现代语言处理

如何确定网页和查询的相关性

有限状态机和地址识别

Google的阿卡47制造者阿米特辛格博士

余弦定理和新闻分类

信息指纹及其应用

谈谈数学模型的重要性

繁与简自然语言处理的几位精英

不要把所有的鸡蛋放到一个篮子里最大熵模型

矩阵运算和文本处理中的分类问题

马尔科夫链的扩展贝叶斯网络

布隆过滤器

谈谈密码学的数学原理

输入一个汉字需要敲多少个键谈香农第一定律

从全球导航到输入法谈动态规划

参考

1. 统计语言模型

假设一个有意义的句子 S 由词 $w_1, w_2, ...,w_n$ 组成，则句子 S 出现的概率可以表示为：

P (S) = P (w 1) P (w 2 | w 1) P (w 3 | w 2, w 1) \cdot \cdot \cdot P (w n | w n - 1, w n - 2, . . ., w 1)

$P(S) = P(w_1)P(w_2|w_1)P(w_3|w_2,w_1)···P(w_n|w_{n-1},w_{n-2},...,w_1)$

从上式看出，一个词出现的概率取决于前面所有的词，然而从计算上来看，各种可能性太多，无法实现，所以可以假设一个词出现的概率只与其前一个词有关(即马尔科夫假设~ 注意，该假设为何有效？)，上式可以进行进一步得到：

P (S) = P (w 1) P (w 2 | w 1) P (w 3 | w 2) \cdot \cdot \cdot P (w n | w n - 1)

$P(S) = P(w_1)P(w_2|w_1)P(w_3|w_2)···P(w_n|w_{n-1})$

计算 $P(w_n|w_{n-1})$ 可以使用贝叶斯公式 $P(w_n)=P(w_n,w_{n-1})P(w_{n-1})$ ，利用统计语言模型可以先得到在统计的文本中 $(w_n, w_{n-1})词对$ 出现了多少次，以及 $w_{n-1}$ 出现多少次，两个次数之比即可得到结果。

统计语言模型比任何已知的借助某种规则的方法都有效！

贝叶斯公式： $P(A|B)=\frac{P(A,B)}{P(B)}, P(A,B)=P(B|A)P(A)$

2. 谈谈中文分词

统计语言模型是建立在词的基础之上的，对于中日韩等语言，首先应该进行分词。如“中国航天官员应邀到美国与太空总署官员开会”。分成一穿词：中国/航天/官员/应邀/到/美国/与/太空/总署/官员/开会。
我们可以想到的最简单的分词方式是查字典，从左到右扫描句子，碰到一个词典中有的词就标识出来，遇到复合词（如：“上海大学”）就找词匹配，遇到不认识的字串就分割成单字词。然而这种分词方法缺点是不能处理二义性的分割（如：“发展中国家”被分割成“发展-中国-家”）。
90年代后，清华的郭进博士用统计语言模型成功解决二义性问题，将汉语分割的错误率降低一个数量级。上面一堆都是铺垫，，，重点来了，该方法用数学公式简单概括如下：
假定句子 S 有以下几种分词方法:
- $A_1,A_2,A_3,...,A_m$
- $B_1,B_2,B_3,...,B_n$
- $C_1,C_2,C_3,...,C_k$
最好的一种方法应该保证分完词后该句子出现的概率最大，也就是说如果 $A_1,A_2,A_3,...,A_m$ 是最好的分词方法，则