一、斯坦福短语抽取工具实现了四个方法来进行短语搭配抽取
(1)基于统计频率数的方法
该方法用于查找长度为2或者3并且连续的短语搭配。因此只处理bigrams和trigrams语料库。对于候选短语集,首先使用预定义的词性序列做一个初步的过滤,将不符合该词性序列的短语组合过滤掉。预定义的词性组合为:
NN_NN
JJ_NN
VB_NN
NN_NN_NN
JJ_NN_NN
NN_JJ_NN
JJ_JJ_NN
NN_IN_NN
然后统计每组短语搭配在语料库中出现的频率和在语料库中具体的位置,最后按照出现的频率排序,取TopN。
如:
Length 2 (<WORD>, <count>):
UNITED STATES, 47
SMALL BUSINESS, 37
Length 3 (<WORD>, <count>):
SMALL BUSINESS CONCERN, 13
SMALL BUSINESS ADMINISTRATION, 9
(2)基于均值和方差的方法
该方法主要用于查找长度为2的非连续的短语词组。对于同一个句子,控制窗口大小为9,然后对于每个词剩余的8个词即为可能与这个词组成词组的词。对于每一个词组,基于语料库,统计第二个词出现时,距离第一个词的距离长度满足一定距离时的次数,然后建立相应的直方图。
使用“flat peak”条件对得到的词组过滤,然后计算符合条件的词组的均值和方差,按方差增加的顺序排列,对于方差相同的词组按频率减少的顺序排列。取top1000用于相似性测试。
如:
Length 2 (<WORD>, <mean>, <variance>, <count>):
UNITED STATES, UNITED, STATES, 1.0, 0.0, 47
OLD MAN, OLD, MAN, 1.0, 0.0, 21
RADIO EMISSION, RADIO, EMISSION, 1.0, 0.0, 16
(3)基于显著性水平t值的方法
该方法用于查找长度为2或者3的连续短语词组,在第一种方法计算出的结果的基础上,计算每个词组的t值,然后按照t值减少的顺序排列。
T的计算公式&#
(1)基于统计频率数的方法
该方法用于查找长度为2或者3并且连续的短语搭配。因此只处理bigrams和trigrams语料库。对于候选短语集,首先使用预定义的词性序列做一个初步的过滤,将不符合该词性序列的短语组合过滤掉。预定义的词性组合为:
NN_NN
JJ_NN
VB_NN
NN_NN_NN
JJ_NN_NN
NN_JJ_NN
JJ_JJ_NN
NN_IN_NN
然后统计每组短语搭配在语料库中出现的频率和在语料库中具体的位置,最后按照出现的频率排序,取TopN。
如:
Length 2 (<WORD>, <count>):
UNITED STATES, 47
SMALL BUSINESS, 37
Length 3 (<WORD>, <count>):
SMALL BUSINESS CONCERN, 13
SMALL BUSINESS ADMINISTRATION, 9
(2)基于均值和方差的方法
该方法主要用于查找长度为2的非连续的短语词组。对于同一个句子,控制窗口大小为9,然后对于每个词剩余的8个词即为可能与这个词组成词组的词。对于每一个词组,基于语料库,统计第二个词出现时,距离第一个词的距离长度满足一定距离时的次数,然后建立相应的直方图。
使用“flat peak”条件对得到的词组过滤,然后计算符合条件的词组的均值和方差,按方差增加的顺序排列,对于方差相同的词组按频率减少的顺序排列。取top1000用于相似性测试。
如:
Length 2 (<WORD>, <mean>, <variance>, <count>):
UNITED STATES, UNITED, STATES, 1.0, 0.0, 47
OLD MAN, OLD, MAN, 1.0, 0.0, 21
RADIO EMISSION, RADIO, EMISSION, 1.0, 0.0, 16
(3)基于显著性水平t值的方法
该方法用于查找长度为2或者3的连续短语词组,在第一种方法计算出的结果的基础上,计算每个词组的t值,然后按照t值减少的顺序排列。
T的计算公式&#