《数学之美》读书笔记(1)

最新推荐文章于 2021-01-09 13:24:22 发布

SrdLaplaceGua

最新推荐文章于 2021-01-09 13:24:22 发布

阅读量686

点赞数 1

分类专栏：读书笔记机器学习文章标签：读书笔记数学自然语言处理语言搜索

本文链接：https://blog.csdn.net/SrdLaplace/article/details/54407477

版权

机器学习同时被 2 个专栏收录

57 篇文章

订阅专栏

读书笔记

37 篇文章

订阅专栏

本书探讨了语言处理和网页搜索两大主题，介绍了自然语言处理的基本原理和技术，包括统计语言模型、中文分词、隐含马尔科夫模型等，并详细解析了网页搜索的原理，如布尔代数的应用、网络爬虫技术、PageRank算法及网页相关性评估。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这周把《数学之美》看了，感觉吴军写的很好，深入浅出，虽然技术上面基本上我都早有涉猎，但是还是让我学到了不少思考问题的思路。下面写一下我对一到十一章各个章节简要总结和感悟。
前十一章讲了两个问题，第一个是语言翻译和分词，另一个是网页搜索
第1、2、3、4、6章讲自然语言处理基本的背景和原理
第5章讲如何无监督的训练一个隐含的马尔科夫模型
第8、9、10、11章将网页搜索的原理

第1章文字和语言 vs 数字和信息
本章要点：
记不住那么多信息因而发明了语言。文字过多形成了概念的聚类，从而有可能产生歧义，歧义需要上下文或者对经典的注释来消除。翻译之所以能达成，是因为不同文字在记录功能上是等价的。罗塞塔石碑说明了：信息的冗余是信息安全的保障；对照语料是翻译的基础。
玛雅文明采用二十进制，可能是发展缓慢的原因。阿拉伯数字0的妙用。
词：有限且封闭——有完备的解码规则。语言：无限和开放——总有语法覆盖不到的地方。语言对还是语法对的思考。

第2章　自然语言处理 — 从规则到统计
本章要点：
鸟飞派——20世纪70年代末（指想飞翔就必须学习鸟飞的技能，而不是空气动力学）
语法分析树的Rewrite Rule，过于复杂
感悟：
其实人对语言的学习也是统计而不是规则，规则只是入门，真正的应用还是靠经验也就是统计。类似的下围棋有第一感，AlphaGo也是用蒙特卡洛的方法来统计计算的。人脸识别的深度学习感觉也是种经验学习，靠统计而不是规则。所以真正的机器学习应该就是统计学习，人工设计的规则总是有漏洞不靠谱的。

第3章　统计语言模型
本章要点：
把句子看作是马尔科夫过程p(s) = p(w1|[s])p(w2|w1)…p(wn|w1…wn-1)
二元模型p(s) = p(w1|[s])p(w2|w1)…p(wn|wn-1)，可推广到N元模型
古德图灵估计：因为统计的语料总是有限的，分配一些概率给没出现过的情况，来解决零概率问题。出现r次的词有Nr个，定义dr=(r+1)Nr+1/Nr，根据Zip定理可知，r越大Nr越小。可知0 < dr < r，从而留下一部分给未出现的情况。实际中将#(wi+1,wi)小于阈值的情况进行古德图灵估计。
低阶模型的零概率问题比高阶模型轻微点，所以用低阶模型和高阶模型进行线性插值来达到屏挂的目的:p(wi|wi-2,wi-1) = lamda1(wi-2,wi-1)*f(wi|wi-2,wi-1)+lamda1(wi-2,wi-1)*f(wi|wi-2,wi-1) +lamda2(wi-1)*f(wi|wi-1) +lamda1*f(wi) 。三个lamda之和等于1。效果差于上面的平滑方法。
语料的选取要训练和应用相结合。人民日报< —— >网络语言

第4章　谈谈中文分词
本章要点：
英文有分界符空格，汉语需要分词。反过来汉语的分词技术可以用到英文手写分词上。
发展历程：字典——最少次数（缺点：二义性词汇，发展中国家）——概率最大（用动态规划解决）
此地/安能/居住，其人/好不/悲伤——此地安/能居住，其人好/不悲伤
北京大学这种可以算是词符合嵌套词
分词中的错误：越界性：北京大学/生；覆盖性：明/斯/基
用基本词表L1和复合词表L2各扫描一边，找出概率最大的情况
感悟：
今年写斗地主AI的时候设计拆牌算法的时候似乎无意中用到了基本词表L1和复合词表L2各扫描一边的思路，感觉这个方面还可以在读下相关文献，提升一下弱智AI的智商

第5章　隐含马尔可夫模型
本章要点：
识别内容s1s2…，接收信号o1o2…
s1s2…=ArgMax P(s1s2…|o1o2…)
贝叶斯公式：P(s1s2…|o1o2…) = P(o1o2…|s1s2…)*P(s1s2…)/P(o1o2…)
独立输出假设:P(s1s2…，o1o2…) = ΠP(st|st-1)*P(ot|st)
训练：P(st|st-1) = #(st,st-1)/#(st-1),P(ot|st) = #(ot,st)/#(st)
有监督学习需要大量的标注，很多情况不适用
无监督学习（鲍姆韦尔奇算法）
1.给定一个模型，计算出某个特定输出序列的概率（Forward-Backward算法）
2.给定一个模型和莫个输出序列，计算出最有可能达到这一状态的序列（维特比算法）
3.给顶足够的观测数据，估计马尔科夫模型参数（鲍姆韦尔奇算法）

第6章　信息的度量和作用
本章要点：
合理利用信息，而不是玩弄公式和机器学习算法，是做好搜索的关键。

第7章　贾里尼克和现代语言处理
感悟：结合了语言学和信息论。跨领域结合是出成果的关键

第8章　简单之美 — 布尔代数和搜索引擎的索引
本章要点：
搜索引擎：1.下载，2.索引，3.排序
布尔代数：离散化，量子化。

第9章　图论和网络爬虫
本章要点：
BFS,DFS，调度系统
先用BFS，减少握手次数优化用DFS
维护和储存Hash表——分类和分布式

第10章　PageRank — Google的民主表决式网页排名技术
本章要点：
通过投票决定网页的重要性，“我是谁”不是靠自己说，是靠别人说
权重B = [b1,b2,…,bn]T
网页链接矩阵A，Bi = A*Bi-1,迭代到收敛
平滑（零概率事件）:Bi = [(α/N)*I+(1-α)*A]*Bi-1,

第11章　如何确定网页和查询的相关性
本章要点：
单文本词频(TF)——预测主题的词权重大，停止词权重为0，（停止词：“是“，”的“，..……）。
逆文本频率指数(IDF)——log(D/Dw)，D所有的网页数，Dw含有词w的网页数。
TF-IDF = TF1*IDF1 + TF2*IDF2 + …
给定查询，综合排名依据 PageRank*TF-IDF