《统计自然语言处理基础》笔记(1)固定搭配词组/习语 识别方法

Chapter5

固定搭配词组/习语 ,如:“饕”和“餮”,“虽然”和“但是”,

以2元词组为例,常用识别方法:

1. 统计2个词汇同时出现的频率,频率越大则越有可能是固定搭配;如”打“和”水“经常同时出现,

   那么”打水”就是一个固定搭配或习语。

 2. 如果对于两个词不相邻的情况,如“虽然”和“但是”之间肯定会有其他词,则不能用上述方法,这时需要考虑两个词的距离。

  以”虽然“出现的位置为参考,将“但是“和其之间的词汇数作为距离的度量,如果“但是”出现在”虽然“前,则

  距离为负,在不同距离上分别统计两个词同时出现的次数,得到一个 距离-次数 直方图,如果该直方图

  比较平坦,则说明这两个词很可能不是固定搭配,反之则是。

3.假设检验。按方法1得到频率很大的2个同时出现的词,如果这2个词各自都是高频词,那么2个词即便经常同时出现,也很有可能只是巧合,因此通过假设检验 对其作进一步确认:这2个词究竟确实是天生一对,还是大量随机出现的结果?


    t检验 和 卡方检验。因为t检验需要作出正态分布的假设,常常与实际场景不符,因此卡方检验一般更为常用。

   a)以t检验为例: 

   先给定假设H0 :两个词的出现是独立的,即 P1(W1 ,W2) = P(W1)*P(W2),这就是期望值,

    再通过统计得到 P2(W1W2) 和方差Delta,最后用公式和查表得到 t值,根据t值判别该假设是

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值