切切切词!新词发现算法TopWORDS的原理及实现|实在智能AI+RPA学院
一、介绍
TopWORDS [参考文献1]是发表在PNAS的一种新词发现算法,它在没有任何先验知识的条件下,快速地从大规模中文语料里学习出一个排序的词典以及语料文本的分词结构。
NB:TopWORDS的代码实现仓库
https://github.com/qf6101/topwords
二、应用领域
TopWORDS的应用领域包括新词发现、短文本分析等。新词发现一直是文本挖掘领域的一个难题,目前的方法主要是分为两种:
(1)依赖众包手段收集词汇,例如百度的搜索词和搜狗的拼音输入;
(2)采用规则方式采集候选词汇,加以人工筛选,例如Matrix67汇总的一些规则 [参考文献2]。上述第一种方法需要先天有优势的大产品才能做,第二种方法效果较差,并且它们都需要大量的人工干预。TopWORDS天然可以做新词发现,优点是完全无监督,有理论依据,效果较好。短文本分析是文本挖掘领域的另一个难题,内容简短、拼写错误、缩写语多、语法随意等原因为它的分析带来很多困难。TopWORDS除了可以抽取常用短语外,还可以为短文本分类等任务提供高频特征。
三、算法步骤
(1)TopWORDS的问题描述如下(不考虑辅助知识)
- 输入:一个语料集合
- 输出:一个排序的词典、输入语料的分词结构(与词典一致)
(2)TopWORDS采用两步算法 - 第0步:语料预处理。确定文本片段的粒度,可以是句子、段落、甚至整篇文档作为一个文本片段&#