Chapter.1文字,语言,数学,信息
很久以前人类以不同的叫声表示不同的信息,达到彼此交流的目的,当所要表达的信息太多时,叫声已经不够用了,于是文字产生了。
1.数学,文字皆是信息的载体
文字:知道“罗塞塔”石碑的典故。
数字:进制的产生
为了表达大数,不同的文明产生了不同的数字表示方法,最终只有使用10进制的文明生存了下来。
10进制:古中国、古印度、阿拉伯
12进制:印度、斯里兰卡
20进制:玛雅,玛雅文明失败的原因之一就是进制太复杂,不利于科学进步,咱们现在要背九九乘法表,他们背的是361路围棋棋盘。
单位进制:罗马(5、10、50、100、500、1000)
数字的表示方法(编解码原理)
中国:编解码的密钥是乘除 二百万 = 2x 100 x 10000
罗马:编解码的密钥是加减 IV =5-1 = 4 ,要用罗马文字表达10亿的话,一黑板是写不下的。
2.从单一的文字到语言的转变就是一种概念的聚类,通过上下文所建立的条件概率模型可推算某多义词在句中的含义
3.信息冗余是信息安全的保证
信息冗余的重要性:当石碑经历风吹日晒,一部分文字被腐蚀掉时,还有另一部分重复的文字作为备份,可以还原石碑的信息。类似的还有人体的DNA,在人体当中,有99%的DNA是无效的,正是这99%保证了人类的正常繁衍,当遇人类遇到辐射时,DNA发生变异的概率是1%.
4.语言的数据---多语对照语料(用于破解语言规则,即翻译)
5.将日常的白话口语写成精简的文言文本身是一个信道压缩的过程,而将文言文解释清楚则是对应的解压缩过程。
6.词可认为是有限而封闭的集合,语言则是无限且开放的集合,前者有完备的编码规则,后者则不然
7.抄圣经的校验方式:将每个字母映射成一个数字。把每一页文字对应的数字按行列加起来,写在每行每列的尾部。在抄写时,把自己的数字和原文的数字进行对照,可以以最快的速度检查是否有抄写错误,而且还能定位行列。这种简单有效的方法已经开始展现出数学之美了
Chapter.2自然语言处理--从规则到统计
我们把一个要表达的意思,通过某种语言的一句话表达出来,就是用这种语言的编码方式对头脑中的信息做一次编码,编码的结果就是一窜文字。如果对方懂得这门语言,就可以用这门语言的解码方法获得说话人要表达的信息。
1、语意理解(失败):让计算机像人脑一样分析语句的意思,建立语法分析树。
失败原因有两点:
a.当遇到长难句时,计算量大幅增加,计算机的解码是上下文无关的,而自然语言是上下文相关的。
b.要理解语意必须建立大量的语法规则,然而即使规则再多,也不能覆盖全部的自然语言,总会有新的流行语言产生,它们处于语法规则之外。
2、数学与统计(成功):通过隐含马尔可夫模型来估计句子出现的可能性。
马尔可夫假设:在一个句子中,每个词x出现的概率只与它前面的一个词x-1有关,而与更前面的0~x-2个词无关。这是一个偷懒却有效的假设,这个著名的假设使得语言处理的计算速度大幅提升且不失准确。
马尔可夫链是马尔可夫模型的基础。它是一个有向图,各个状态之间有转移概率。同时,马尔可夫链也对概率论的研究产生了巨大贡献。
马尔可夫链的训练:鲍姆-韦尔奇算法
Chapter.3统计语言模型
几十年前,数学家兼信息论的祖师爷香农(ClaudeShannon)提出了用数学的办法处理自然语言的想法。遗憾的是当时的计算机条件根本无法满足大量信息处理的需要,所以他这个想法当时并没有被人们重视。
七十年代初,有了大规模集成电路的快速计算机后,香农的梦想才得以实现。首先成功利用数学方法解决自然语言处理问题的是语音和语言处理大师贾里尼克(FredJelinek)。
1.一个句子是否合理,由这种文字组合出现的概率来判断。
2.一阶(可扩展到n阶)马尔科夫假设---用p(wi|wi-1)近似p(wi|wi-1,wi-2,...w1)
3.不平滑问题:由于训练样本不足而造成的部分条件概率为0的估计问题
4.古德-图灵估计:从概率总量中分配一个小比例给未看见的事件(训练集以外)----即给不可信的样本集打一个估计总体的折扣(对出现频次小于某阀值的词的估计打一折扣已解决不平滑问题)
统计学陷阱
当统计样本不足时(分母太小),统计结果的说服力将降低,此时可以用古德-图灵方法对统计结果进行打折平滑处理
N阶马尔可夫假设:每个词和它前面的N-1个词有关,N元模型的大小是N的指数关系。Google翻译使用的是4阶模型
Chapter.4中文分词
1.没有100%确定的规则,只有适合应有的选择
2.此地安能居住,其人好不忧伤
此地-安能-居住,其人-好不-忧伤
此地安-能居住,其人好-不忧伤
语言对信息的表达总是有噪音(这里是个人情感)的而不能完全精确解码,对有噪音训练集进行学习反而能更好的实现对现实语言的判别需求
近几年中文分词主要花精力的地方:花功夫做数据挖掘的工作,不断完善复合词的词典。
3.世上东西总是相通的,譬如分词的颗粒和神经网络的步长就是一对
Chapter.5隐马尔可夫模型
1.通信的本质是一个编解码和传输的过程。
2.通信六要素:发送者,信道,接受者,信息,上下文,编码
3.随机过程----随机变量的时间序列;马尔科夫链----马尔科夫假设下的随机过程
4.隐马尔可夫模型:任意时刻t的状态st不可见,,没法通过观察到一个状态序列S1,S2....ST来推测转移概率等参数,但每个时刻t会输出一个仅和st相关的符号ot。
5.隐马尔可夫模型三个基本问题:
5.1.给定一个模型,如何计算某个特殊输出序列的概率-----Forward--Backward算法
5.2.给定一个模型和某一个特定输出序列,如何找到最可能产生这个输出的状态序列----维特比算法
5.3.给定足够量的观测数据,如何估计隐马尔可夫模型的参数(各个转移概率,生成概率)----模型训练问题
6.无监督训练算法---鲍姆-韦尔奇算法---通过迭代找到期望概率最大化的模型(但结果可能是局部而非全局最优),是一种期望值最大化算法,EM过程。
7.隐马尔可夫模型作为机器学习的模型工具之一,使用时需要一个训练算法(鲍姆-韦尔奇)和使用时的解码算法(维特比)