新词发现想法

最新推荐文章于 2020-06-08 18:08:26 发布

sunmenggmail

最新推荐文章于 2020-06-08 18:08:26 发布

阅读量855

点赞数

分类专栏：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sunmenggmail/article/details/8190574

版权

算法专栏收录该内容

376 篇文章 4 订阅

订阅专栏

参考

http://www.matrix67.com/blog/archives/5044

http://for-ever-young.iteye.com/blog/1133136

1. 通过用户查询query发现

2. 互信息

互信息之统计模型中衡量2个随机变量X,Y之间的关联程度，而在新词的识别中则特指相邻2个词之间的关联程度。

MI(X，Y)=log2(p(X，Y)/p(X)*P(Y))

那么当『XY』未在已经训练完的词库中出现，且该互信息高于某一阀值值，那么我们就假定该词为新词。

3. 频率

当某一组连续相邻的字在新的语料库或网络日志中大量出现而未在词库中登记时，那么我们也可假定该词为新词。

4. 先分词，求分词结果组合串出现的频率

5. matrix67 新词发现的工作很有创意

把一个新词定位为两个维度，一是内部凝结度，可以用互信息描述；二是外面信息熵

很明显的是，如果内部凝结度越高，互信息越高

并且如果左邻或右邻的词的种类越多，熵越大

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

sunmenggmail CSDN认证博客专家 CSDN认证企业博客

码龄15年

302: 原创

6万+: 周排名

201万+: 总排名

322万+: 访问

: 等级

2万+: 积分

956: 粉丝

512: 获赞

210: 评论

889: 收藏

私信

关注

热门文章

分类专栏

c++ 178篇
算法 376篇
linux 100篇
python 38篇
java 135篇
高性能建站 16篇
分布式 24篇
机器学习 38篇
推荐系统 11篇
English 1篇
数据结构 5篇
操作系统 5篇
office 6篇
网络编程 16篇
正则表达式
软件工程 22篇
点点滴滴 7篇
前瞻 10篇
工作相关 2篇
基础知识 37篇
计算广告 2篇
go 1篇
android 8篇
node 1篇
gpu 10篇
scala 1篇
opencv 1篇

最新评论

无向图的直径以及树的直径
ArthasKenway: floyd的效率是否比n次堆优化dijkstra效率低
非参贝叶斯
m0_73942066: 受益匪浅，非常感谢
数据库活锁和死锁
圆圆的东柳君: 你这个活锁的概念错了吧，活锁是俩个事务之间相互等待对方调用资源后释放资源，但又互相谦让造成的“饥饿”
欧拉回路和哈密尔顿回路
RickyInMelbourne: 图在哪里
poj1328
心里想了想哭: 我想问下，我把数据储存换成了pair<double, double> 为啥会wa 我换成struct{double， double}就ac了，不理解，我还调试了半天qaqqqq

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。