第十四篇:有概率的上下文无关语法Probabilistic Context-Free Grammar

 

目录

 

解析中的歧义

大纲

概率CFGs的基本Basics of Probabilistic CFGs (PCFGs)

使用 PCFG 随机生成

一棵树的可能性有多大?

PCFG parsing

CYK for PCFGs

概率 CYK:检索解析

算法

 Limitations of CFG

CFG 问题 1:较差的独立性假设

解决方案:父母条件

CFG 问题 2:缺乏词汇条件

协调歧义

解决方案:中心词词法化

中心词词法化

最后


解析中的歧义

• 上下文无关文法为语言分配层次结构
    ‣ 公式化为生成语言中的所有字符串
    ‣ 预测给定字符串的结构

• 产生歧义问题——哪个更好?
• 概率CFG!

大纲

• Basics of Probabilistic CFGs (PCFGs)
• PCFG parsing
• Limitations of CFG

概率CFGs的基本Basics of Probabilistic CFGs (PCFGs)

• 相同的符号集:
    ‣ 终结符:单词比如书籍
    ‣ 非终结符:NP 或 NN 等句法标签
• 相同的制作(规则)
‣ LHS 非终结符 → RHS 符号的有序列表

• 此外,存储每个产生式的概率,如下:

• 概率值表示有条件
    ‣ P(LHS → RHS)
    ‣ P(RHS | LHS)
• 因此他们:
    ‣ 必须为正值,介于 0 和 1 之间
    ‣ 必须为给定的 LHS 求和为 1

使用 PCFG 随机生成

几乎与 CFG 相同,但有一点不同:
1.以S开头,句号
2. 选择一个以 S 作为 LHS 的规则
‣ 根据P(RHS | LHS)随机选择一个RHS
例如,S → VP
‣ 应用此规则,例如,将 VP 替换 S
3. 对字符串中的每个非终结符重复步骤 2(此处为 VP)
4.当没有非终端剩余时停止
给我们一棵树,和以前一样,用一句话作为产出

一棵树的可能性有多大?

• 给定一棵树,我们可以计算它的概率
    ‣ 分解为每个产生式的概率

有对应的每个产生式的概率表,查表计算即可获得树的概率

PCFG parsing

• 在我们查看之前
    ‣ CYK
    ‣ 未加权文法 (CFG)
    ‣ 查找所有可能的树
• 但通常有 1000 个,许多完全是荒谬的
• 我们能解出最可能的树吗?

CYK for PCFGs

• CYK 查找一个句子的所有树; 我们想要最好的树
• 概率CYK 遵循与标准 CYK 类似的流程
• 将语法转换为乔姆斯基范式 (CNF)

‣ 其中 NP+NP 是新符号。

概率 CYK:检索解析

• 解析表右上角的 S 表示成功
• 保留指向最佳分析的反向指针
• 要获取解析,请按照每个匹配项的指针返回
• 通过删除新的非终结符从 CNF 转换回来

算法

 

 Limitations of CFG

CFG 问题 1:
较差的独立性假设

• 改写独立做出的决策,而捕捉全局结构通常需要相互依赖。
    • NP → DT NN [0.28]
    • NP → PRP [0.25]
    • 独立于树其余部分的规则的概率
    • 无法在 PCFG 概率中表示这种上下文差异

• NP → PRP 作为主语应该上升到 0.91
• NP → DT NN 作为宾语应该是 0.66
• 解决方案:添加一个条件来表示 NP 是主语还是宾语

解决方案:父母条件

• 通过将父亲节点符号合并到每个符号中,使非终结符更加明确

• NP^S 代表主语位置(左)
• NP^VP 表示宾语位置(右)

CFG 问题 2:
缺乏词汇条件

• 对树中的单词缺乏敏感性
• 介词短语 (PP) 附属歧义
    ‣ 工人将麻袋倒入垃圾箱 Worker dumped sacks into a bin

歧义在于,是要讲麻袋倒入垃圾箱,还是要去倒在垃圾箱中的麻袋,这是由介词短语所导致的

协调歧义

• dogs in houses and cats

歧义在于,句子是说:在房间里的狗 和 猫 还是说, 在房间和猫里的 狗

• 从语义上来说,狗比房子更适合和猫并列(狗不能在猫里面!)

解决方案:中心词词法化

• 用父节点符号记录中心词
    ‣ 成分中最显着的孩子,通常是 NP 中的名词,VP 中的动词等

 ‣ VP → VBD NP PP :
    VP(dumped) → VBD(dumped) NP(sacks) PP(into)

中心词词法化

• 将主词纳入产生式规则中,以捕捉词之间最重要的联系
‣ 捕获短语中心词之间的相关性
‣ PP(into): VP(dumped) vs. NP(sacks)
• 语法符号库存大幅增加!
‣ 很多产生式规则过于具体,很少见
‣ 学习更多内容以避免稀疏问题(例如,零概率)

最后

• PCFG 被广泛使用,并且有高效的解析器可用。
‣ 柯林斯解析器、伯克利解析器、斯坦福解析器
‣ 都使用某种形式的词汇化
• 但还有其他语法形式
‣ 词法函数语法
‣ Head-driven(中心词驱动) 短语结构语法
‣ 下一篇:依赖语法!

好热~~~,哈哈,辛苦各位的观看,有问题评论区留言交流哦!

 

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值