斯坦福和NLTK英语短语词组抽取工具原理及源码理解

最新推荐文章于 2024-06-15 22:23:36 发布

海涛anywn

最新推荐文章于 2024-06-15 22:23:36 发布

阅读量1.1w

点赞数 2

分类专栏：自然语言处理算法文章标签：自然语言处理源码

本文链接：https://blog.csdn.net/lihaitao000/article/details/51645179

版权

本文探讨了NLTK和Stanford工具在短语词组抽取中的实现。NLTK利用N-gram Model，通过过滤和打分确定词组，而Stanford工具基于句法分析生成预选搭配。两者都通过对比语料库频率来确定短语的合理性。

摘要由CSDN通过智能技术生成

一、斯坦福短语抽取工具实现了四个方法来进行短语搭配抽取
(1)基于统计频率数的方法
该方法用于查找长度为2或者3并且连续的短语搭配。因此只处理bigrams和trigrams语料库。对于候选短语集，首先使用预定义的词性序列做一个初步的过滤，将不符合该词性序列的短语组合过滤掉。预定义的词性组合为：
NN_NN
JJ_NN
VB_NN

NN_NN_NN
JJ_NN_NN
NN_JJ_NN
JJ_JJ_NN
NN_IN_NN
然后统计每组短语搭配在语料库中出现的频率和在语料库中具体的位置，最后按照出现的频率排序，取TopN。
如：
Length 2 (<WORD>, <count>):
UNITED STATES, 47
SMALL BUSINESS, 37

Length 3 (<WORD>, <count>):
SMALL BUSINESS CONCERN, 13
SMALL BUSINESS ADMINISTRATION, 9

(2)基于均值和方差的方法
该方法主要用于查找长度为2的非连续的短语词组。对于同一个句子，控制窗口大小为9，然后对于每个词剩余的8个词即为可能与这个词组成词组的词。对于每一个词组，基于语料库，统计第二个词出现时，距离第一个词的距离长度满足一定距离时的次数，然后建立相应的直方图。
使用“flat peak”条件对得到的词组过滤，然后计算符合条件的词组的均值和方差，按方差增加的顺序排列，对于方差相同的词组按频率减少的顺序排列。取top1000用于相似性测试。
如：
Length 2 (<WORD>, <mean>, <variance>, <count>):
UNITED STATES, UNITED, STATES, 1.0, 0.0, 47
OLD MAN, OLD, MAN, 1.0, 0.0, 21
RADIO EMISSION, RADIO, EMISSION, 1.0, 0.0, 16

(3)基于显著性水平t值的方法
该方法用于查找长度为2或者3的连续短语词组，在第一种方法计算出的结果的基础上，计算每个词组的t值，然后按照t值减少的顺序排列。
T的计算公式&#

最低0.47元/天解锁文章

海涛anywn

关注

2
点赞
踩
32

收藏

觉得还不错? 一键收藏
2
评论
斯坦福和NLTK英语短语词组抽取工具原理及源码理解

一、斯坦福短语抽取工具实现了四个方法来进行短语搭配抽取(1)基于统计频率数的方法该方法用于查找长度为2或者3并且连续的短语搭配。因此只处理bigrams和trigrams语料库。对于候选短语集，首先使用预定义的词性序列做一个初步的过滤，将不符合该词性序列的短语组合过滤掉。预定义的词性组合为：NN_NNJJ_NNVB_NNNN_NN_NNJJ_NN_NNNN_
复制链接

扫一扫

专栏目录