Chapter5
固定搭配词组/习语 ,如:“饕”和“餮”,“虽然”和“但是”,
以2元词组为例,常用识别方法:
1. 统计2个词汇同时出现的频率,频率越大则越有可能是固定搭配;如”打“和”水“经常同时出现,
那么”打水”就是一个固定搭配或习语。
2. 如果对于两个词不相邻的情况,如“虽然”和“但是”之间肯定会有其他词,则不能用上述方法,这时需要考虑两个词的距离。
以”虽然“出现的位置为参考,将“但是“和其之间的词汇数作为距离的度量,如果“但是”出现在”虽然“前,则
距离为负,在不同距离上分别统计两个词同时出现的次数,得到一个 距离-次数 直方图,如果该直方图
比较平坦,则说明这两个词很可能不是固定搭配,反之则是。
3.假设检验。按方法1得到频率很大的2个同时出现的词,如果这2个词各自都是高频词,那么2个词即便经常同时出现,也很有可能只是巧合,因此通过假设检验 对其作进一步确认:这2个词究竟确实是天生一对,还是大量随机出现的结果?
t检验 和 卡方检验。因为t检验需要作出正态分布的假设,常常与实际场景不符,因此卡方检验一般更为常用。
a)以t检验为例:
先给定假设H0 :两个词的出现是独立的,即 P1(W1 ,W2) = P(W1)*P(W2),这就是期望值,
再通过统计得到 P2(W1W2) 和方差Delta,最后用公式和查表得到 t值,根据t值判别该假设是