自然语言处理——Collocations
@[自然语言处理]
词频分布:
边缘分布:单个词的词频分布
P(w)
,
p(wi)=c(wi)N
,
c(wi)
表示了词
wi
出现的次数,N表示词的总数
二元的联合概率分布:
P(w1,w2)
,
p(wi,wj)=c(wi,wj)N
,
N
表示所有两个词组成的collocations的总数
假设检验
t检验:
原始公式:
t=x^−μs2N−−√ 拓展到自然语言处理:
假设文本集是由N个bi-grams组成的一个长序列,样本就是指示型的随机变量,即如果一个bi-grams出现则用1表示,不出现用0表示;某个固定的gram相对于其他所有grams构成了一个01分布p(new)=1582814307668
p(companies)=4675143077668
H0:p(newcompanies)=p(new)p(companies)≈3.615∗10−7
解释:如果零假设为真,随机生成bigrams的过程相当于一个重复的伯努利过程, p=3.615∗10−7 ;伯努利分布的均值 μ=3.615∗10−7,σ=p(1−p) , σ 趋近于p,new companies 总共出现了8次,样本均值 x^=814307668≈5.591∗10−7
t=x^−μs2N−−√≈5.59110−7−3.61510−75.59110−714307668−−−−−−−√≈0.999932,
根据查表t值不大于2.576,因此原假设成立,new companies不构成collocation,但是自然语言处理可能和一般的统计指标不同,t值的阀值选择根据经验选择chi-square( X2 )检验
t检验严格假设了分布服从于normally distributed
table w1=new w1≠new w2=companies 8 4667 w2≠companies 15820 14287181 χ2=∑ji(Oij−Eij)Eij
Oij=cell(i,j),Eij是期望值
E11=8+4667N×8+15820N×N≈5.2 ,new companies是独立的期望出现次数是5.2Likelihood ratios
对于稀疏的数据来说,比 X2 更好
- H1. p(w2|w1)=p=p(w2|≠w1)
- H2. p(w2|w1)=p1≠p2=p(w2|≠w1)
p=c2N;p1=c12c1;p2=c2−c12N−c1假设一个伯努利分布b(k;n,x)=Cknxk(1−x)n−klogλ=logL(H1)L(H2)L(H1)=b(c12;c1,p)b(c2−c12;N−c1,p)L(H2)=b(c12;c1,p1)b(c2−c12;N−c1,p2)Mutual Information
I(x,y)=log2P(x,y)P(x)P(y)