分词phrase

Top word

TopWORDS的应用领域包括新词发现、短文本分析等。

新词发现一直是文本挖掘领域的一个难题,目前的方法主要是分为两种:
(1)依赖众包手段收集词汇,例如百度的搜索词和搜狗的拼音输入;
(2)采用规则方式采集候选词汇,加以人工筛选,例如Matrix67汇总的一些规则2。上述第一种方法需要先天有优势的大产品才能做,第二种方法效果较差,并且它们都需要大量的人工干预。TopWORDS天然可以做新词发现,优点是完全无监督,有理论依据,效果较好

TopWORDS的问题描述如下(不考虑辅助知识)。

输入:一个语料集合
输出:一个排序的词典、输入语料的分词结构(与词典一致)

TopWORDS采用两步算法:

第0步:语料预处理。确定文本片段的粒度,可以是句子、段落、甚至整篇文档作为一个文本片段,前两种粒度适合分布式计算,论文采用后两种。将语料整理为文本片段的集合,清理掉文本片段中的标点符号。

第1步:生成一部超完备词典。生成方式依赖两个阈值:词长阈值τL和词频阈值τF。以文本片段为事务,使用Aprori策略得到长度小于等于τL出现频率大于等于τF的词,组成超完备词典。用标准化后的词频(范围在0~1之间)初始化每个词的使用率(word use probability),剔除掉使概率小于等于1E-8的词,得到最终的超完备词典。
(Aprori算法就是数据挖掘中的关联规则啥的,用来获得频繁项集的一种方法。)
第2步:采用EM算法从语料中估计每个词的实际使概率,下面是有关符号。

在这里插入图片描述
使用EM算法估计这块,还是咩太懂,
原文链接

词典排序

论文还提出了一种衡量词使用率的排序标准,比较它出现和不出现情况下语料的概率,作为词的重要程度。该标准也可以采用动态规划的方式进行计算,在此不再赘述。

最优分词结构

论文提出以两种策略来确定最优分词结构:
(1)所有可能的分词结构中分词边界的频率大于阈值且词典中存在对应的词
(2)如果词典中不存在对应的词,就采用MLE策略。该策略也可以采用动态规划的方式进行计算,在此不再赘述。

TopWORDS-Seg

原文链接:原文链接
TopWORDS-Seg: Simultaneous Text Segmentation and Word Discovery for Open-Domain Chinese Texts via Bayesian Inference

**CNLP的文本分词大体可分为三类:第一类:词汇匹配(word matching)方法。**该方法假设潜在的词表已知,通过匹配词表中的字符串对句子进行分词。第二类:有监督学习方法。大多数CNLP的文本分词是基于有监督学习方法,即利用人工标注好的大规模语料库训练模型,通过训练好的模型进行分词。该类方法在封闭测试下的表现很好,且已有很多开源的工具包可使用,如Jieba、StandfordNLP、THULAC、PKUSEG、LTP等第三类:无监督学习方法,即在没有潜在词表和大规模标注语料库的情况下,利用文本中的天然信息,字和字之间的关联性,进行分词,如:基于局部统计量的描述长度增益(description length gain)、互信息(mutual infomation)等方法,以及基于统计生成模型的图术语切分(graph term segmentation),TopWORDS等方法

一般来说,无监督分词方法不能提供高质量的分词结果,但在新词发现领域却有优势,如TopWORDS。有监督分词方法,虽然在封闭测试上表现很好,但是当应用到开放域时,表现不稳定,往往无法正确识别技术词汇。如何将两类方法的优势有机结合是该领域的一个挑战。另外,从方法论上而言,并没有合适的框架可以将文本分词和词语发现链接起来;从实际应用角度出发,开放域评价标准的缺乏导致不同方法不好比较。基于以上问题,研究团队提出解决思路:1. 引入贝叶斯框架,将高效的词语发现器TopWORDS和强大的分词工具PKUSEG结合,开发出更高效的工具TopWORDS-Seg,该工具能同时进行文本分词和词语发现 2.在基准(benchmark)数据集和开放域数据上建立评价标准,同时测评不同方法文本分词和词语发现的表现。经过测评发现,TopWORDS-Seg在开放域文本处理任务上的效果明显优于其他方法。

贝叶斯公式:P(A|B)=(P(B|A)*P(A))/P(B)
原文链接:https://zhuanlan.zhihu.com/p/158771382

TopWORDS-Seg方法

TopWORDS由Deng et al. (2016) 提出,是一种基于无监督统计学习的离线自然语言处理方法。作者以 TopWORDS为基础,通过贝叶斯推断,将TopWORDS从词汇发现能力强但文本分词能力弱的工具,升级为在两个维度上具有平衡能力的更强大的工具TopWORDS-Seg。

TopWORDS-Seg 算法的流程分为四个步骤,如图 1 所示:(1)字典初始化阶段:枚举最大词长不超过且最小词频不小于的子字符串构成庞大的初始词典。(推荐默认设置 ,) (2)先验构建阶段:由分词工具导出,为任意一种强大的分词工具,后续实践中使用的是PKUSEG。(3)词汇发现阶段:由EM算法进行参数估计,并通过似然比检验筛检掉初始词典中不显著的词汇候选,得到最终精简的词表。(4)文本分词阶段:基于已得到的词表和参数 ,通过条件概率进行分词,在切分概率大于的地方切开(控制了分词的颗粒度,一般默认 = 0.5)。其中在先验构建阶段,超参数κ的选取很关键。一般来讲,κ越小则越接近先验分词器 ,越大则越接近TopWORDS。作者在不同的任务中使用不同的值指定κ:在词语发现阶段使用大的κ(称为),以充分利用TopWORDS强大的新词发现能力;在文本分词中使用小的κ(称为),以充分利用PKUSEG强大的分词能力。基于广泛的实验研究,作者建议设置和。算法的详细内容参见论文的第二节。
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YingJingh

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值