参考
http://www.matrix67.com/blog/archives/5044
http://for-ever-young.iteye.com/blog/1133136
1. 通过用户查询query发现
2. 互信息
互信息之统计模型中衡量2个随机变量X,Y之间的关联程度,而在新词的识别中则特指相邻2个词之间的关联程度。
MI(X,Y)=log2(p(X,Y)/p(X)*P(Y))
那么当『XY』未在已经训练完的词库中出现,且该互信息高于某一阀值值,那么我们就假定该词为新词。
3. 频率
当某一组连续相邻的字在新的语料库或网络日志中大量出现而未在词库中登记时,那么我们也可假定该词为新词。
4. 先分词,求分词结果组合串 出现的频率
5. matrix67 新词发现的工作很有创意
把一个新词定位为两个维度,一是内部凝结度,可以用互信息描述;二 是外面信息熵
很明显的是,如果内部凝结度越高,互信息越高
并且 如果左邻或右邻的词的种类越多,熵越大