斯坦福和NLTK英语短语词组抽取工具原理及源码理解

本文探讨了NLTK和Stanford工具在短语词组抽取中的实现。NLTK利用N-gram Model,通过过滤和打分确定词组,而Stanford工具基于句法分析生成预选搭配。两者都通过对比语料库频率来确定短语的合理性。
摘要由CSDN通过智能技术生成
一、斯坦福短语抽取工具实现了四个方法来进行短语搭配抽取
(1)基于统计频率数的方法
该方法用于查找长度为2或者3并且连续的短语搭配。因此只处理bigrams和trigrams语料库。对于候选短语集,首先使用预定义的词性序列做一个初步的过滤,将不符合该词性序列的短语组合过滤掉。预定义的词性组合为:
NN_NN
JJ_NN
VB_NN

NN_NN_NN
JJ_NN_NN
NN_JJ_NN
JJ_JJ_NN
NN_IN_NN
然后统计每组短语搭配在语料库中出现的频率和在语料库中具体的位置,最后按照出现的频率排序,取TopN。
如:
Length 2 (<WORD>, <count>):
UNITED STATES, 47
SMALL BUSINESS, 37


Length 3 (<WORD>, <count>):
SMALL BUSINESS CONCERN, 13
SMALL BUSINESS ADMINISTRATION, 9


(2)基于均值和方差的方法
该方法主要用于查找长度为2的非连续的短语词组。对于同一个句子,控制窗口大小为9,然后对于每个词剩余的8个词即为可能与这个词组成词组的词。对于每一个词组,基于语料库,统计第二个词出现时,距离第一个词的距离长度满足一定距离时的次数,然后建立相应的直方图。
使用“flat peak”条件对得到的词组过滤,然后计算符合条件的词组的均值和方差,按方差增加的顺序排列,对于方差相同的词组按频率减少的顺序排列。取top1000用于相似性测试。
如:
Length 2 (<WORD>, <mean>, <variance>, <count>):
UNITED STATES, UNITED, STATES, 1.0, 0.0, 47
OLD MAN, OLD, MAN, 1.0, 0.0, 21
RADIO EMISSION, RADIO, EMISSION, 1.0, 0.0, 16


(3)基于显著性水平t值的方法
该方法用于查找长度为2或者3的连续短语词组,在第一种方法计算出的结果的基础上,计算每个词组的t值,然后按照t值减少的顺序排列。
T的计算公式&#
  • 2
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值