文本挖掘(一)—— 新词发现2

续接 文本挖掘(一)—— 新词发现1

苏剑林新词发现

https://spaces.ac.cn/archives/6920

在这里插入图片描述

进一步解读

基于词典分词
  • 原理:基于词典和AC自动机的快速分词
  • 优缺点: 便于维护,容易适应领域
《新词发现的信息熵方法与实现》
  • 算法介绍:https://spaces.ac.cn/archives/3491
  • 原理:频数、凝固度、自由度;
《【中文分词系列】 2. 基于切分的新词发现》
  • 算法介绍:https://spaces.ac.cn/archives/3913
  • 原理:如果片段的凝固度低于一定程度时,这个片段就不可能成词
  • 优缺点: 很快,结果显得粗糙; 为了得到更细粒度的词语(避免分出太多无效的长词),选择较大的α,比如α=10,但是这带来一个问题:一个词语中相邻两个字的凝固度不一定很大
《【中文分词系列】 5. 基于语言模型的无监督分词》
  • 算法介绍:https://spaces.ac.cn/archives/3956
  • 原理:一种完整的独立于其它文献的无监督分词方法,结合语言模型和贝叶斯概率 (类似概率公式进行计算, 算句子词成句概率,选最高的概率作为分词结果)
  • 优缺点:好很强大,却又显得太过复杂(viterbi是瓶颈之一)
【中文分词系列】 7. 深度学习分词?只需一个词典!
  • 算法介绍:https://spaces.ac.cn/archives/4245
  • 原理: 类似于远程监督的逻辑,词典进行预标注作为训练数据,不过这里训练数据的标注逻辑有一些特殊处理。(采用词典随机拼接作为句子,进一步训练分词模型)
  • 1
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

微知girl

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值