《统计自然语言处理》第三章 笔记

前言

浏览本书的目的,是对于NLP领域统计方法建立一个大体的认知。所以很多地方不会详细展开,以弄懂思路为主。

形式语言

  1. 形式语言是什么?
    形式语言是用来精确的描述语言及其结构的手段。
    给定终结符、非终结符和规则,通过不断的推导,来得到句子。
    类似于编译器中的语法。
  2. 形式语法有哪些类型?
    四种文法类型,约束逐渐减少。
    正则文法、上下文无关文法、上下文有关文法、无约束文法
    正则文法:规则右部替换之后在最左边或者最右边要有终结符号。
    上下文无关文法:规则右端的格式没有限制,也就是说规则左端的非终结符可以被改写成为任何形式。
    上下文有关文法:被改写时要有上下文语境。
    难道语境不算是一种约束吗
    无约束文法

自动机理论

  1. 自动机理论代表着什么思想?
    不需要人力干涉的机械性演算过程。
  2. 自动机有哪些分类?他们之间的区别是什么?
    自动机分为有限自动机、下推自动机、线性带限自动机、图灵机,分别和上述的几种约束逐渐减小的文法对应。
    这几种自动机看起来区别重点在于“限”,“限”怎么理解?
    有限自动机分为确定性有限自动机、非确定性有限自动机;而这两种自动机的区别在于映射之后的状态是一个还是一个集合。对于任意一个正则文法,总是可以创建一个有限自动机。
  3. 自动机在自然语言处理中有哪些应用?
  • 单词拼写检查
    如果存在单词与该字符串的编辑距离小于阈值,那么该字符串被识别为错误的。
    编辑距离求解的思路是动态规划,实际算法中需要剪枝。
  • 单词形态分析
    借助的是 有限状态转换机 而不是有限自动机。
  • 词性消歧
    根据词性消歧规则构造状态转换机。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值