Collocations

自然语言处理——Collocations

@[自然语言处理]

词频分布:

边缘分布:单个词的词频分布 Pw , p(wi)=c(wi)N , c(wi) 表示了词 wi 出现的次数,N表示词的总数
二元的联合概率分布: Pw1w2 p(wi,wj)=c(wi,wj)N , N 表示所有两个词组成的collocations的总数

假设检验

t检验:

原始公式:

t=x^μs2N

拓展到自然语言处理:
假设文本集是由N个bi-grams组成的一个长序列,样本就是指示型的随机变量,即如果一个bi-grams出现则用1表示,不出现用0表示;某个固定的gram相对于其他所有grams构成了一个01分布

p(new)=1582814307668
p(companies)=4675143077668
H0:p(newcompanies)=p(new)p(companies)3.615107
解释:如果零假设为真,随机生成bigrams的过程相当于一个重复的伯努利过程, p=3.615107 ;伯努利分布的均值 μ=3.615107,σ=p(1p) , σ 趋近于p,new companies 总共出现了8次,样本均值 x^=8143076685.591107

t=x^μs2N5.5911073.6151075.591107143076680.999932
,
根据查表t值不大于2.576,因此原假设成立,new companies不构成collocation,但是自然语言处理可能和一般的统计指标不同,t值的阀值选择根据经验选择

chi-square( X2 )检验

t检验严格假设了分布服从于normally distributed

table w1=new w1new
w2=companies 84667
w2companies 1582014287181

χ2=ji(OijEij)Eij
Oij=cell(i,j),Eij
E11=8+4667N×8+15820N×N5.2 ,new companies是独立的期望出现次数是5.2

Likelihood ratios

对于稀疏的数据来说,比 X2 更好

  • H1. p(w2|w1)=p=p(w2|w1)
  • H2. p(w2|w1)=p1p2=p(w2|w1)

p=c2N;p1=c12c1;p2=c2c12Nc1b(k;n,x)=Cknxk(1x)nklogλ=logL(H1)L(H2)L(H1)=b(c12;c1,p)b(c2c12;Nc1,p)L(H2)=b(c12;c1,p1)b(c2c12;Nc1,p2)

Mutual Information

I(x,y)=log2P(x,y)P(x)P(y)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值