前言
浏览本书的目的,是对于NLP领域统计方法建立一个大体的认知。所以很多地方不会详细展开,以弄懂思路为主。
形式语言
- 形式语言是什么?
形式语言是用来精确的描述语言及其结构的手段。
给定终结符、非终结符和规则,通过不断的推导,来得到句子。
类似于编译器中的语法。 - 形式语法有哪些类型?
四种文法类型,约束逐渐减少。
正则文法、上下文无关文法、上下文有关文法、无约束文法
正则文法:规则右部替换之后在最左边或者最右边要有终结符号。
上下文无关文法:规则右端的格式没有限制,也就是说规则左端的非终结符可以被改写成为任何形式。
上下文有关文法:被改写时要有上下文语境。
难道语境不算是一种约束吗
无约束文法
自动机理论
- 自动机理论代表着什么思想?
不需要人力干涉的机械性演算过程。 - 自动机有哪些分类?他们之间的区别是什么?
自动机分为有限自动机、下推自动机、线性带限自动机、图灵机,分别和上述的几种约束逐渐减小的文法对应。
这几种自动机看起来区别重点在于“限”,“限”怎么理解?
有限自动机分为确定性有限自动机、非确定性有限自动机;而这两种自动机的区别在于映射之后的状态是一个还是一个集合。对于任意一个正则文法,总是可以创建一个有限自动机。 - 自动机在自然语言处理中有哪些应用?
- 单词拼写检查
如果存在单词与该字符串的编辑距离小于阈值,那么该字符串被识别为错误的。
编辑距离求解的思路是动态规划,实际算法中需要剪枝。 - 单词形态分析
借助的是 有限状态转换机 而不是有限自动机。
- 词性消歧
根据词性消歧规则构造状态转换机。