数学之美
数学的发展实际上是不断的抽象和概括的过程
目录
第十章 PageRank——google民主表决式网页排名技术
第二十七章、二十八章 上帝算法(期望最大化算法)、逻辑回归和搜索广告-点击率预估采用了逻辑回归函数
第一章
- 香农提出新信息论,数学和信息联系起来
- 语言的本质就是通信,信息通过信道进行编码、解码的过程
- 一词多义需要通过上下文来消除歧义
- 信息的冗余是信息安全的保障,一份信息多种语言备份
- 语言的数据——语料,对翻译至关重要
- 进位制的发明,就是对数量进行编码,不同的数字代表不同的量(罗马数字解码规则是加减法,小数字在大数字左边为减,右边为加;)
- 文字规则:常用字短,生僻字长;暗含信息论中的最短编码原理,窄带压缩,宽带不压缩;校验码的产生
第二章(从规则到统计)
- 任何一种语言都是一种编码方式,语法规则就是编解码的算法。语言的数学本质:信息交流其实就是用同一个语法规则对信息进行编解码过程
机器能否懂得自然语言?1、机器能否处理自然语言?如果能处理方法是否和人一样?答案:yes
- 图灵测试:判断机器是否智能的标准。人和机器进行交流,如果人无法判断自己交流的对象是人还是机器,就说明机器有智能了。
- 基于规则的研究方向坚持了15年后终于过渡到基于统计的自然语言处理:机器翻译、语音识别、数据挖掘、深度学习
- “老科学家”:钱钟书的围城解释到含义一:老的科学家;含义二:老科学的家。如果是后者,必须耐心等待他们退休让出位子,毕竟不是所有人都乐意改变自己的观点,无论对错。
第三章 统计语言模型
- 一个有意义的句子S是否合理:可以通过判断可能性大小思路来研究——概率来计算:概率越大该语句越有意义、越合理;
- S取决于其中每个词出现的概率P(s)=P(w1,w2,w3...wn)——,条件概率公式变换——马尔科夫假设(只跟前一个单词出现概率有关)——简化为二元模型——统计次数计算比值近似等于概率(大数定律支撑)
- N元模型、模型的训练(模型中的所有条件概率称之为模型的参数),通过对语料的统计,得到这些参数的过程称之为模型的训练——大数定理:要求有足够多的观测值
- 0概率问题、统计量不足问题、统计的可靠性如何解决。
- 古德-图灵估计:对于没有看见的事情,不能认为发生的概率为零,因此从概率总量中,分配一个很小的比例给这些没有看见的事情。看见的事情的总概率和小于1,也即将所有看见事情概率调小一点,调小多少,根据“越是不可信的统计折扣越多”方法进行
第四章 分词
- 最简单的方法:查字典,从左到右依次依次扫描字典,无法解决分词二义性
- 统计语言模型可以解决分词二义性:最好的分词对应的词串,一定能保证分完词后这个句子出现的概率最大。利用第三章出现的模型计算概率最大的词串就可以找到最好的分词方法
-
动态规划+维特比算法快速找到最佳分词
同样的一个词语,在不同的应用中,会有一种颗粒度比另外一种颗粒度更好的情况:比如“清华大学”如果作为一个词网页分词后用户查询“清华”时,找不到清华大学,这是有问题的;也就是说清华大学既要被看成一个整体,又要可以被切分开;
正常思维处理:针对不同的应用构造不同的分词器。缺点是浪费,存在重复
高级处理方式:让一个分词器支持不同层次的词的切分。
实现方式:1、需要一个基本词表和一个复合词表。基本词表包含“清华”、“大学”无法再分的词;复合词包含复合词已经它们有哪些基本词构成,比如“清华大学:清华-大学”“搜索引擎:搜索-引擎”.\
2、针对基本词表和复合词表各建立一个语言模型,分别为L1和L2.
3、根据基本词表和语言模型L1对句子进行分词,得到小颗粒度分词结果;(基本词比较稳定+分词方法已经解决,偶尔添加个别新词,不需要额外工作量):输入字串S1,输出基本词串R1;
4、再用复合词和语言模型L2进行二次分词,这是输入是R1,输出是复合词串,词表和语言模型改变了,但是分词的核心程序同第三步一样,可以进行复用。(复合词是近年来中文分词的主要工作重点,不断的进行完善,尽可能找到各种复合词)
-
分词的准确性问题:
错误和颗粒度不一致:错误主要是越界型错误:比如“北京大学生”翻译成“北京大学-生”;另一类是覆盖型错误“北京大学”翻译成“北-京-大-学”
第五章 隐马尔科夫模型
- 自然语言处理转化为——通信系统的解码问题:如何根据接收端接收到的信号o1,o2,o3...来推测发送端发送的信号s1,s2,s3?从所有的源信息中找到最可能产生出观测信号的那个一个:从概率来说就是已知接收端信号o1,o2,o3...求条件概率最大的s1,s2,s3
- 贝叶斯公式变形转化
- 随机变量(静态)的研究——随机过程(动态的:随机变量的时间序列);随机过程更复杂
- 马尔科夫假设:随机过程中各个状态st的分布只与他的前一个状态有st-1有关;符合马尔科夫假设的随机过程称为马尔科夫过程或者马尔科夫链:马尔科夫链有向图、状态转移概率
- 隐马尔科夫模型:任一时刻t的的状态st是不可见的。无法观察到一个状态序列s1,s2,s3。。。st来推测转移概率等参数。但是每个时刻t会输出一个符号ot,这个ot跟st相关,且紧跟st相关。——独立输出假设
- 基于独立输出假设,可以计算出某个特定转态序列s1,s2,s3。。。st产生出符号o1,o2,o3...的概率
第六章 信息的度量和作用
- 香农——信息熵:信息的信息量和不确定性有关,香农公式。类似热力学熵
- 一本50万字的书,常用汉字大约7000个,每个汉字等概率,一个汉字需要13比特表示。实际上前10%汉字占据书中95%以上,大约8-9比特。因此一本50w字书信息量大学250w比特。压缩算法进行压缩,可以压缩到320kB。两字节的国标码存储需要1M大小,两个数量的差距称之为冗余度。一本书的重复内容越多,信息量越小,冗余度就越大。
- 信息的作用:消除不确定性,自然语言的处理的大量问题就是寻找相关信息。二元模型不确定性<一元模型不确定,三元模型不确定小于二元模型不确定。也即三元比二元好,二元比一元好;
- 互信息:两个随机事件相关性的量化度量。
- 互信息的作用:机器翻译中的二义性(歧义性)?如何正确的翻译二义词:利用互信息,从大量文本中找出和二义词的某一个意义一起出现的互信息量最大的一些词;同样 方式找出和二义词的另外一个意义一起出现的互信息量最大的一些词;有了这两组词,在翻译二义词时看看上下文中哪类相关词多就可以了。
第七章 贾里尼克和和现代语言处理
当今社会:学术界浮躁,年轻人焦虑,少数有着梦想和远大志向的年轻人是非常孤独的;
给我的启发点:
- 不赞成中小学只会上学考试的教育方式,吴军和贾里尼克花在中小学课本上时间不到现在学生一半;
- 中小学生没必要花那么多时间读书,反而应该多注意培养社会经验、生活能力以及建立志向,这些将会帮助他们一生;
- 中学阶段话很多时间比同伴多读的课程,在大学时用很多时间就能读完,大学阶段,人力的理解力要强得多;
- 学习是持续一辈子的过程,很多中学成绩优异进入名校后不如出于兴趣而读书的同伴,因为前者持续学习的动力不足;
- 书本中的内容可以早学,也可以晚学,但是错过了成长阶段是无法补回来的(不支持少年班的做法)
一个人要想在自己的领域做到世界一流或者很优秀,他的周围必须要有非常多一流的人物。贾里尼克的幸运就是年轻时得到了很多大师的指点,站在巨人肩上,从而比同龄人高出了一筹。
约翰霍普金斯大学——语音识别和自然语言处理实验室CLSP 1、用经费招募俞银河语言处理领域顶级科学家和有潜力的年轻学者 2、利用自己的影响力,将学生派到世界上最好的公司去实习,通过学生的优异表现,树立起CLSP培养人才的声誉 3、治学极为严谨,对学生要求严格,淘汰比例高、毕业时间长,但同时利用自己影响力为学生学习和事业提供便利,提供生活费、学费等。成为自己的学生的精神领袖 4、最大的帮助是告诉你什么不好。和股神巴菲特异曲同工,只告诉你不要去做什么,至于什么更好,相信你自己能找到。 |
第八章 简单之美——布尔代数和搜索引擎
技术分为“术”和“道”两种:具体的做事方式是“术”,做事的原理和原则是“道;
追求“术”的人一辈子工作都很辛苦;只有掌握了本质和精才能永远游刃有余;
追求“术”的人是想走捷径,但是真正最好一件事没有捷径,离不开1w小时专业的训练和努力;
- 搜索引擎的“道”:下载、索引、排序三种基本服务组成
- 升级搜索引擎,主要是改进索引