这周把《数学之美》看了,感觉吴军写的很好,深入浅出,虽然技术上面基本上我都早有涉猎,但是还是让我学到了不少思考问题的思路。下面写一下我对一到十一章各个章节简要总结和感悟。
前十一章讲了两个问题,第一个是语言翻译和分词,另一个是网页搜索
第1、2、3、4、6章讲自然语言处理基本的背景和原理
第5章讲如何无监督的训练一个隐含的马尔科夫模型
第8、9、10、11章将网页搜索的原理
第1章 文字和语言 vs 数字和信息
本章要点:
记不住那么多信息因而发明了语言。文字过多形成了概念的聚类,从而有可能产生歧义,歧义需要上下文或者对经典的注释来消除。翻译之所以能达成,是因为不同文字在记录功能上是等价的。罗塞塔石碑说明了:信息的冗余是信息安全的保障;对照语料是翻译的基础。
玛雅文明采用二十进制,可能是发展缓慢的原因。阿拉伯数字0的妙用。
词:有限且封闭——有完备的解码规则。语言:无限和开放——总有语法覆盖不到的地方。语言对还是语法对的思考。
第2章 自然语言处理 — 从规则到统计
本章要点:
鸟飞派——20世纪70年代末(指想飞翔就必须学习鸟飞的技能,而不是空气动力学)
语法分析树的Rewrite Rule,过于复杂
感悟:
其实人对语言的学习也是统计而不是规则,规则只是入门,真正的应用还是靠经验也就是统计。类似的下围棋有第一感,AlphaGo也是用蒙特卡洛的方法来统计计算的。人脸识别的深度学习感觉也是种经验学习,靠统计而不是规则。所以真正的机器学习应该就是统计学习,人工设计的规则总是有漏洞不靠谱的。
第3章 统计语言模型
本章要点:
把句子看作是马尔科夫过程p(s) = p(w1|[s])p(w2|w1)…p(wn|w1…wn-1)
二元模型p(s) = p(w1|[s])p(w2|w1)…p(wn|wn-1),可推广到N元模型
古德图灵估计:因为统计的语料总是有限的,分配一些概率给没出现过的情况,来解决零概率问题。出现r次的词有Nr个,定义dr=(r+1)Nr+1/Nr,根据Zip定理可知,r越大Nr越小。可知0 < dr < r,从而留下一部分给未出现的情况。实际中将#(wi+1,wi)小于阈值的情况进行古德图灵估计。
低阶模型的零概率问题比高阶模型轻微点,所以用低阶模型和高阶模型进行线性插值来达到屏挂的目的:p(wi|wi-2,wi-1) = lamda1(wi-2,wi-1)*f(wi|wi-2,wi-1)+lamda1(wi-2,wi-1)*f(wi|wi-2,wi-1) +lamda2(wi-1)*f(wi|wi-1) +lamda1*f(wi) 。三个lamda之和等于1。效果差于上面的平滑方法。
语料的选取要训练和应用相结合。人民日报< —— >网络语言
第4章 谈谈中文分词
本章要点:
英文有分界符空格,汉语需要分词。反过来汉语的分词技术可以用到英文手写分词上。
发展历程:字典——最少次数(缺点:二义性词汇,发展中国家)——概率最大(用动态规划解决)
此地/安能/居住,其人/好不/悲伤——此地安/能居住,其人好/不悲伤
北京大学这种可以算是词符合嵌套词
分词中的错误:越界性:北京大学/生;覆盖性:明/斯/基
用基本词表L1和复合词表L2各扫描一边,找出概率最大的情况
感悟:
今年写斗地主AI的时候设计拆牌算法的时候似乎无意中用到了基本词表L1和复合词表L2各扫描一边的思路,感觉这个方面还可以在读下相关文献,提升一下弱智AI的智商
第5章 隐含马尔可夫模型
本章要点:
识别内容s1s2…,接收信号o1o2…
s1s2…=ArgMax P(s1s2…|o1o2…)
贝叶斯公式:P(s1s2…|o1o2…) = P(o1o2…|s1s2…)*P(s1s2…)/P(o1o2…)
独立输出假设:P(s1s2…,o1o2…) = ΠP(st|st-1)*P(ot|st)
训练:P(st|st-1) = #(st,st-1)/#(st-1),P(ot|st) = #(ot,st)/#(st)
有监督学习需要大量的标注,很多情况不适用
无监督学习(鲍姆韦尔奇算法)
1.给定一个模型,计算出某个特定输出序列的概率(Forward-Backward算法)
2.给定一个模型和莫个输出序列,计算出最有可能达到这一状态的序列(维特比算法)
3.给顶足够的观测数据,估计马尔科夫模型参数(鲍姆韦尔奇算法)
第6章 信息的度量和作用
本章要点:
合理利用信息,而不是玩弄公式和机器学习算法,是做好搜索的关键。
第7章 贾里尼克和现代语言处理
感悟:结合了语言学和信息论。跨领域结合是出成果的关键
第8章 简单之美 — 布尔代数和搜索引擎的索引
本章要点:
搜索引擎:1.下载,2.索引,3.排序
布尔代数:离散化,量子化。
第9章 图论和网络爬虫
本章要点:
BFS,DFS,调度系统
先用BFS,减少握手次数优化用DFS
维护和储存Hash表——分类和分布式
第10章 PageRank — Google的民主表决式网页排名技术
本章要点:
通过投票决定网页的重要性,“我是谁”不是靠自己说,是靠别人说
权重B = [b1,b2,…,bn]T
网页链接矩阵A,Bi = A*Bi-1,迭代到收敛
平滑(零概率事件):Bi = [(α/N)*I+(1-α)*A]*Bi-1,
第11章 如何确定网页和查询的相关性
本章要点:
单文本词频(TF)——预测主题的词权重大,停止词权重为0,(停止词:“是“,”的“,..……)。
逆文本频率指数(IDF)——log(D/Dw),D所有的网页数,Dw含有词w的网页数。
TF-IDF = TF1*IDF1 + TF2*IDF2 + …
给定查询,综合排名依据 PageRank*TF-IDF