学习书籍:统计自然语言处理(宗成庆)
理解笔记:
图 树 字符串
3.1 图
3.1.1 无向图
无向图G可定义为一个二元组G=(N,E),其中N为图中顶点的集合,E为所有边的集合,即两个点之间的边没有方向。
3.1.2 有向图
有向图G可定义为一个二元组G=(N,E),其中N为图中顶点的集合,E为所有边的集合,但(ni,nj)和(nj,ni)是两条不同的边。
3.1.3 连通图
连通图是一个有向图或者无向图,对于任意两个顶点都能找到一个图内的通路进行连接。(对于任意两个点,有向图需要找到两个方向的通路,无向图只需要一条通路)
3.3.4 回路
对于一个图中,由n个顶点连成的通路,如果开始节点和结束节点是同一个节点,这条路径称为一个通路。
3.2 树
森林:没有回路的无向图
树:没有回路的连通无向图
3.3 字符串
字符串: 由字符集合中的字符连接组成的有限序列称为字符集合上的字符串。
定义在字符串上的两种运算:字符串连接和闭包运算。
字符串连接:x y是字符集上的字符串,把y接在x后面称为x与y的连接,记作xy。
闭包运算:闭包有多种概念,其中包括集合的闭包,关系的闭包和编程中的闭包。参考闭包。字符串的闭包定义与上面也有所不同,具体参考书籍。(如果有理解错误,欢迎指出)
描述语言的三种方式
- 穷举法,将语言中的所有句子都枚举出来
- 文法描述(产生式系统):描述语言及其结构,生成合法句子
- 自动机:对句子进行合法性检验,识别一个字符串是否属于该语言
文法描述和自动机各有所长,自然语言处理中大多各取所长。
形式语言(文法描述)
由乔姆斯基的语法理论,文法被划分为4种类型:3型文法(正则文法)、2型文法(上下文无关文法)、1型文法(上下文有关文法)、0型文法(无约束文法)。
1.正则文法
由定义可以看出,正则文法中所有的产生式的左式都是单个非终结符,右式是单个终结符或者(非终结符+终结符)。此种文法也被称为左线性正则文法,若右式是单个终结符或者(终结符+非终结符),文法被称为右线性正则文法。
2.上下文无关文法
由定义可以看出,上下文无关文法中所有的产生式都是单个非终结符,右式不做限制
3.上下文有关文法
由定义可以看出,产生式中需要上下文环境,当A左右的上下文环境都是空字符的时候,该上下文有关文法蜕变成无关文法,故上下文无关文法是上下文有关文法的一个特例。因此上下文有关文法比上下文无关文法识别的语言集合更大。
4.无约束文法
由定义可知,无约束文法对产生式没有限制
自动机
自动机分为四种类型 有限自动机、下推自动机、线性界限自动机、图灵机。
有限自动机
有限自动机可分为确定性有限自动机(DFA)和不确定性有限自动机(NFA)。
DFA和NFA的区别是,在DFA中,由一个输入引起的状态转移是确定的,而在NFA中,由一个输入引起的状态转移是一个状态集合,即存在多种可能结果。
一个NFA总是可以找到一个等价的DFA。
正则文法和自动机:正则文法和自动机之间可以相互转换。
**# 转换方法,待学 **
下推自动机
下推自动机可以被形象的理解为,把有限状态自动机扩展,附加了一个可以存取的栈。其中每一个下推自动机都接受一个形式语言。与有限自动机一样,下推自动机存在确定和不确定两种形式。(与有限自动机不一样的是,DFA和NFA两者是等价的,确定的下推自动机和不确定的下推自动机是不等价的)。其中,被不确定的下推自动机接受的语言是上下文无关语言。
由定义可知,下推自动机在有限自动机的基础上增加了下推存储器的符号集合和下推存储器的初始状态这两个变量。当输入一个字符时,不仅仅更新自动机的状态,还更新下推存储器的状态。
判断是否被下推自动机接受的标准有两种。
(1)终止状态接受标准
(2)空存储器接受标准