Coursera自然语言处理 Week3 笔记

最新推荐文章于 2024-09-23 18:03:01 发布

LVB10101111

最新推荐文章于 2024-09-23 18:03:01 发布

阅读量396

点赞数

分类专栏：自然语言处理Coursera By M. Collins 文章标签：自然语言处理 nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013515273/article/details/78271677

版权

自然语言处理Coursera By M. Collins 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

接下来两周讲的是Parsing tree。第三周先讲了“语义无关”的方法Pure PCFG，然后第四周根据Pure PCFG的缺点，提出了“语义相关”的方法Lexical PCFG。

注：PCFG = Probabilistic Context-Free Grammar

1. Parsing任务描述

输入：句子 $S={x_1,x_2,x_3,....,x_n}$

输出：Parsing Tree

基础：Tagging Task（第二周讲的任务）- 首先给每一个词都打上上 pos(part-of-speech) tag，然后施加rules才能形成parsing tree。

2. Parsing Tree解决方案 - 理论

Parsing Tree实际上就是由一些规则组成的，构建Parsing Tree实际上就是找到总概率最大的一个rules集合，这个总概率也称为这棵Parsing Tree的概率。

(1) Parsing Tree的概率 == 组成这个树的各rules的概率乘积

(2) 当一个句子出现多于一棵Parsing Tree的时候，选择概率最大的那棵树

2.1 模型搭建

于是，我们的模型搭建如下：

t = arg max t \in  (S) P (t)

$t = \mathop \arg \max_{t \in \mathcal{T}(S)} P(t)$

P (t) = \prod i q (r i)

$P(t) = \prod_{i}q(r_i)$

其中， $t$ 就是最终的parsing tree， $\mathcal{T}(S)$ 是句子 $S$ 所有可能的parsing tree集合， $P(t)$ 就是当前选定的parsing tree $t$ 的概率， $r_i$ 是构成parsing tree $t$ 的第 $i$ 条规则， $q(r_i)$ 就是这条规则在出现的概率。

2.2 参数估计

于是，这个模型的唯一参数就是 $q(r_i)$ ，根据大数定理，在数据集足够大的情况下，概率可以近似成频率。于是这个参数可以从训练集中统计得到：

r i : X \to Y Z

$r_i: X \to Y \ Z$

q (r i) = q (X \to Y Z) = C o u n t ( X \to Y Z ) C o u n t ( X )

$q(r_i)=q( X \to Y \ Z)=\frac{Count( X \to Y \ Z)}{Count(X)}$

比如说，在训练集中，规则”VP $\to$ Vt NP”一共出现了105次，”VP”一共出现了1000次，那么：

q (V P \to V t N P) = C o u n t ( V P \to V t N P ) C o u n t ( V P ) = 105 1000

$q(VP \to Vt \ NP) = \frac{Count(VP \to Vt \ NP)}{Count(VP)}=\frac{105}{1000}$

3. Parsing Tree解决方案 - 实现

实现步骤：
1. 从训练集中，将所有的参数统计到；
2. 遍历所有的可能的Parsing Tree，选择概率最大的那棵;
3. 输出这棵Parsing Tree

第1和3步是显而易见的，难就难在第2步，如果穷举整个空间，计算量将十分巨大，一般解决穷举困境的好方法就是“动态规划 (Dynamic Programming)” [这个我最最讨厌的算法，哪哪儿都有它……]

整个动态规划的过程如下所示：

动态规划实现的算法叫做“CKY”算法：

还有一种叫做“inside”算法，与CKY算法不同之处在于，CKY的输出是 $\mathop \arg\max P(t)$ ，而inside算法的输出为 $\sum_{t \in \mathcal{T}(S)} P(t)$ ，但两者的本质是一样的。（还有疑问的）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

LVB10101111 CSDN认证博客专家 CSDN认证企业博客

码龄11年

53: 原创

24万+: 周排名

157万+: 总排名

4万+: 访问

: 等级

968: 积分

52: 粉丝

19: 获赞

15: 评论

39: 收藏

私信

关注

热门文章

分类专栏

最新评论

Mac OS环境下的libsvm在Matlab中安装
pumpkinlampx: 请问已经可以得到最后一步Accuracy，但在用libsvmtrain函数时还是报错Undefined function or variable 'libsvmtrain'怎么办呀
Mac OS环境下的libsvm在Matlab中安装
m0_58024416: 参照教程成功安装，给博主大大的赞
Mac OS环境下的libsvm在Matlab中安装
qq_43006393: make了libsvmread.c和libsvmwrite.c，但是没有make svmtrain.c和svmpredict.c两个文件，这个要怎么解决呢？
Mac OS环境下的libsvm在Matlab中安装
ScienceLight: 4.2步骤中还是失败了，请问还有解决方法吗 mex -setup Error using mex No supported compiler or SDK was found. For options, visit http://www.mathworks.com/support/compilers/R2016b/maci64.html.
Mac OS环境下的libsvm在Matlab中安装
皮皮管理回复 ZhouRui_csu: 你直接把 libsvm-3.24 文件夹添加到 toolbox 后，matlab 的 set path 选择第 2 个按钮【添加并包含子文件夹】再选中libsvm-3.24 就行，这个文件夹下所有的文件都会被加入到搜索路径里

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。