在上一节说到通过互信息来衡量两个词的相关度MI(X,Y)=log
2p(x,y)/p(x)p(y)
这个算式看起来很直观,但计算还是有些麻烦,因为计算概率值p(x),p(y)都需要在语料中进行分词,
这就涉及到词典的构成以及分词的算法。
下面介绍一个简便而直观的算法:
假设一个文章集合 {C},总文章数目为N,其中含有单词X的文章总数为Nx,含有单词Y的文章总数是Ny,含有{X+Y}的文章总数是 Nxy,那么相关性这么计算
Corr(X,Y)= Nxy/(Nx+Ny-Nxy)-(Nx*Ny)/(N*N)
转载于:https://www.cnblogs.com/wongwere/archive/2006/08/28/488752.html