新词发现想法

参考

http://www.matrix67.com/blog/archives/5044

http://for-ever-young.iteye.com/blog/1133136


1. 通过用户查询query发现

2. 互信息

互信息之统计模型中衡量2个随机变量X,Y之间的关联程度,而在新词的识别中则特指相邻2个词之间的关联程度。

MI(X,Y)=log2(p(X,Y)/p(X)*P(Y))

那么当『XY』未在已经训练完的词库中出现,且该互信息高于某一阀值值,那么我们就假定该词为新词。


3. 频率

当某一组连续相邻的字在新的语料库或网络日志中大量出现而未在词库中登记时,那么我们也可假定该词为新词。


4. 先分词,求分词结果组合串 出现的频率


5. matrix67 新词发现的工作很有创意

把一个新词定位为两个维度,一是内部凝结度,可以用互信息描述;二 是外面信息熵

很明显的是,如果内部凝结度越高,互信息越高

并且 如果左邻或右邻的词的种类越多,熵越大



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值