数学之美 第三版
-
- 第1章 文字和语言 vs 数字和信息
- 第2章 自然语言处理——从规则到统计
- 第3章 统计语言模型
- 第4章 谈谈分词
- 第5章 隐马尔可夫模型
- 第6章 信息的度量和作用
- 第7章 贾里尼克和现代语言处理
- 第8章 简单之美——布尔代数和搜索引擎
- 第9章 图论和网络爬虫
- 第10章 PageRank——Google的民主表决式网页排名技术
- 第11章 如何确定网页和查询的相关性
- 第12章 有限状态机和动态规划——地图与本地搜索的核心技术
- 第13章 Google AK-47的设计者——阿米特·辛格博士
- 第14章 余弦定理和新闻的分类
- 第15章 矩阵运算和文本处理中的两个分类问题
- 第16章 信息指纹及其应用
- 第17章 由电视剧《暗算》所想到的——谈谈密码学的数学原理
- 第18章 闪光的不一定是金子——谈谈搜索引擎反作弊问题和搜索结果的权威性问题
- 第19章 谈谈数学模型的重要性
- 第20章 不要把鸡蛋放到一个篮子里——谈谈最大熵模型
- 第21章 拼音输入法的数学原理
- 第22章 自然语言处理的教父马库斯和他的优秀弟子们
- 第23章 布隆过滤器
- 第24章 马尔可夫链的扩展——贝叶斯网络
- 第25章 条件随机场、文法分析及其他
- 第26章 维特比和他的维特比算法
- 第27章 上帝的算法——期望最大化算法
- 第28章 逻辑回归和搜索广告
- 第29章 各个击破算法和Google云计算的基础
- 第30章 Google大脑和人工神经网络
- 第31章 区块链的数学基础——椭圆曲线加密原理
- 第32章 大数据的威力——谈谈数据的重要性
- 第33章 随机性带来的好处——量子密钥分发的数学原理
- 第34章 数学的极限——希尔伯特第十问题和机器智能的极限
- 附录 计算复杂度
- 第三版后记
- 索引
第1章 文字和语言 vs 数字和信息
文字和语言与数学,从产生起原本就有相通性,虽然它们的发展一度分道扬镳,但是最终还是能走到一起。
1 信息
2 文字和数字
3 文字和语言背后的数学
第2章 自然语言处理——从规则到统计
人类对机器理解自然语言的认识走了一条大弯路。早期的研究集中采用基于规则的方法,虽然解决了一些简单的问题,但是无法从根本上将自然语言理解实用化。直到20多年后,人们开始尝试用基于统计的方法进行自然语言处理,才有了突破性进展和实用的产品。
1 机器智能
2 从规则到统计
第3章 统计语言模型
统计语言模型是自然语言处理的基础,并且被广泛应用于机器翻译、语音识别、印刷体,或手写体识别、拼写纠错、汉字输入和文献查询。
1 用数学的方法描述语言规律
2 延伸阅读:统计语言模型的工程诀窍
第4章 谈谈分词
中文分词是中文信息处理的基础,它同样走过了一段弯路,目前依靠统计语言模型已经基本解决了这个问题。
1 中文分词方法的演变
2 延伸阅读:如何衡量分词的结果
第5章 隐马尔可夫模型
隐马尔可夫模型最初应用于通信领域,继而推广到语音和语言处理中,成为连接自然语言处理和通信的桥梁。同时,隐马尔可夫模型也是机器学习的主要工具之一。
1 通信模型
2 隐马尔可夫模型
3 延伸阅读:隐马尔可夫模型的训练
第6章 信息的度量和作用
信息是可以量化度量的。信息熵不仅是对信息的量化度量,也是整个信息论的基础。它对于通信、数据压缩、自然语言处理都有很强的指导意义。
1 信息熵
2 信息的作用
3 互信息
4 延伸阅读:相对熵
第7章 贾里尼克和现代语言处理
作为现代自然语言处理的奠基者,贾里尼克教授成功地将数学原理应用于自然语言处理领域中,他的一生富于传奇色彩。
1 早年生活
2 从水门事件到莫妮卡·莱温斯基
3 一位老人的奇迹
第8章 简单之美——布尔代数和搜索引擎
布尔代数虽然非常简单,却是计算机科学的基础,它不仅把逻辑和数学合二为一,而且给了我们一个全新的视角看待世界,开创了数字化时代。
1 布尔代数
2 索引
第9章 图论和网络爬虫
互联网搜索引擎在建立索引前需要用一个程序自动地将所有的网页下载到服务器上,这个程序称为网络爬虫,它的编写是基于离散数学中图论的原理。
1 图论
2 网络爬虫
3 延伸阅读:图论的两点补充说明
第10章 PageRank——Google的民主表决式网页排名技术
网页排名技术PageRank是早期Google的杀手锏,它的出现使得网页搜索的质量上了一个大的台阶。它背后的原理是图论和线性代数的矩阵运算。
1 PageRank算法的原理
2 延伸阅读:PageRank的计算方法