切切切词!新词发现算法TopWORDS的原理及实现|实在智能AI+RPA学院

TopWORDS是一种无监督的新词发现算法,适用于中文文本。它通过EM算法估计词概率,动态规划确定词典排序和最优分词结构。广泛应用于新词发现和短文本分析,有效减少人工干预。
摘要由CSDN通过智能技术生成

切切切词!新词发现算法TopWORDS的原理及实现|实在智能AI+RPA学院

一、介绍
TopWORDS [参考文献1]是发表在PNAS的一种新词发现算法,它在没有任何先验知识的条件下,快速地从大规模中文语料里学习出一个排序的词典以及语料文本的分词结构。
NB:TopWORDS的代码实现仓库
https://github.com/qf6101/topwords

二、应用领域
TopWORDS的应用领域包括新词发现、短文本分析等。新词发现一直是文本挖掘领域的一个难题,目前的方法主要是分为两种:
(1)依赖众包手段收集词汇,例如百度的搜索词和搜狗的拼音输入;
(2)采用规则方式采集候选词汇,加以人工筛选,例如Matrix67汇总的一些规则 [参考文献2]。上述第一种方法需要先天有优势的大产品才能做,第二种方法效果较差,并且它们都需要大量的人工干预。TopWORDS天然可以做新词发现,优点是完全无监督,有理论依据,效果较好。短文本分析是文本挖掘领域的另一个难题,内容简短、拼写错误、缩写语多、语法随意等原因为它的分析带来很多困难。TopWORDS除了可以抽取常用短语外,还可以为短文本分类等任务提供高频特征。

三、算法步骤
(1)TopWORDS的问题描述如下(不考虑辅助知识)

  • 输入:一个语料集合
  • 输出:一个排序的词典、输入语料的分词结构(与词典一致)
    (2)TopWORDS采用两步算法
  • 第0步:语料预处理。确定文本片段的粒度,可以是句子、段落、甚至整篇文档作为一个文本片段&#
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值