[NLP]发现新词

思路:

1、对新文本进行对其断句、分词、去除停用词,

2、计算文档的二阶共现、三阶共现、四阶共现频率 

3、发现两个字符串合并的新词:针对统计的二阶共现频率,计算词语的

互信息:

左右熵:基于对应三阶共现结果

将结果进行加权求和,最后排序,根据经验阈值确定新词,然后使用词典过滤后加入词典

4、发现三个字符串合并的新词,与3 同理,统计三阶共现概率

互信息计算需要 对n-gram 的互信息求和,如 细思极恐=>MI(细,思)+MI(思,极)+MI(极,恐)

左右熵计算:计算对应的四阶共现词频

参考:基于互信息和左右信息熵的短语提取识别

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值