自然语言处理(第3课 形式语言与自动机)

一、学习目标

1.形式语言的定义与推导过程
2.推导过程的派生树表示形式
3.乔姆斯基4类文法
4.4类文法对应的自动机
5.自动机的一种应用

二、形式语言的定义与推导过程

1.形式语言是用来精确描述语言及其结构的手段。
在这里插入图片描述
形式语言就是机械地统计出语言句子的结构和单词。一个简单应用就是:有了这样一套规则就能去区分一个句子是否有句法错误
2.形式语法的定义:
在这里插入图片描述
N是变量集合,相当于是数学算式中的未知数x,在实际应用一般表示为词语的词性(动、名、介),或者句子的结构(主、谓、宾)。
∑是终结符集合,实际上就是具体的字符。不是逗号、句号这些符号的集合。
P是重写规则集合,即是初始符和变量可以改写成另外一种形式。当将变量改写成具体字符后,该字符就不能在改写,故称具体的字符为终结符
S是初始符,改写规则的最初字符。

3.推导方式:
在这里插入图片描述
一个例子如下:
在这里插入图片描述
在这里插入图片描述
对于同一个短语,显然我们会有许多种推导过程,甚至同样是最右推导,也可以有不同的推导过程。

4.关于句型、句子、语言的定义:
在这里插入图片描述
以上例为例子:
在这里插入图片描述
而语言,在形式语言中,就是所有句子的集合。(显然,这样的定义是机械的,缺少创新和变通,无法描述语言中的新词汇、新句式的产生)
在这里插入图片描述

三、推导过程的派生树表示形式

1.还是以上面的例子为例:最右推导如下
在这里插入图片描述
派生树就是:
在这里插入图片描述
显然,不止有这样的派生书,还有:
在这里插入图片描述
==如果存在某个句子有不只一棵派生树与之对应,那么这样的文法是二义的,或称歧义(ambiguous)文法。==显然,“关于鲁迅的文章”就是一个歧义句。

四、乔姆斯基4类文法

在这里插入图片描述

1.正则文法:(每次改写一定有一个终结符,变量符有一个或零个)
在这里插入图片描述
2.上下文无关文法:(每次改写一定有且仅有一个终结符即可)
在这里插入图片描述
3.上下文有关文法:(每次改写都有一个或多个终结符)
在这里插入图片描述
在例4中,(a)为第一条改写,不作考虑;(b)(c)中的α和β是空字符,(d)中C改写成了终结字符cc。故是上下文有关文法。
4.无约束文法:
在这里插入图片描述
5.四类文法的约束条件是逐渐放开的,也与后面的四类自动机一一对应。
在这里插入图片描述

五、自动机

在这里插入图片描述
在这里插入图片描述
有限状态自动机又分两类:
在这里插入图片描述
1.确定性有限自动机(DFA):
在这里插入图片描述
在这里插入图片描述
sp. 对于DFA和NFA,我们常用状态变换图来展示其过程。状态变换图的规则如下:
在这里插入图片描述
于此同时,当句子符合有限自动机的规则时,称为“接受”,用T(M)来表示被M语言接受的所有句子的全集
以下面例子为例:
在这里插入图片描述
2.非确定性有限自动机(NFA):
在这里插入图片描述
DFA与NFA的区别:前者转换后的状态是确定的,只有一个;后者转换后状态不确定,有多个。NFA例子如下:
在这里插入图片描述
3.正则文法与FA的关系:
在这里插入图片描述
在这里插入图片描述

正则文法->FA的步骤:
在这里插入图片描述
例子如下:
在这里插入图片描述
步骤如下:

在这里插入图片描述
FA->正则文法的步骤:
在这里插入图片描述
例子如下:
在这里插入图片描述

六、有限自动机与状态转移机的应用

1.英文单词拼写检查

2.英文大慈形态分析

七、本章总结

1.了解形式语言。
2.了解自动机,特别地,明白有限自动机和正则文法的关系。
3.由于形式语言和自动机是比较老的技术,前沿研究中对其的使用会比较少。但在数据量比较少,应用面比较窄的场合中,形式语言和自动机是性价比最好的技术。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
形式语言自动机笔记主要涵盖了以下几个方面: 1. 形式语言:介绍了语言和形式语言的概念,并讨论了形式语法和推导的相关内容。 2. 有限自动机和正则文法:介绍了确定的有限自动机和不确定的有限自动机的区别,以及它们与正则文法的关系。 3. 图灵机和线性带限自动机:讨论了图灵机和线性带限自动机的特点和区别,特别强调了图灵机能够通过读/写头改变输入带的字符的能力。 4. 线性带限自动机和1型文法:介绍了线性带限自动机和1型文法的等价性,以及线性带限自动机的特点,包括其存储空间被输入符号串的长度所限制的特点。 5. 各类自动机的区别:总结了各类自动机之间的区别和联系。 总的来说,这篇笔记主要介绍了形式语言自动机的基本概念、特点和应用,并通过详细的例子和解释来帮助读者理解这些概念。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [自然语言处理(3)——形式语言自动机](https://blog.csdn.net/m0_53327618/article/details/121617719)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [统计自然语言处理(第二版)学习笔记:第三章 形式语言自动机](https://blog.csdn.net/XB_please/article/details/100182309)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值