浅谈互联网环境下的热词发现技术

最新推荐文章于 2024-06-18 15:59:10 发布

overstack

最新推荐文章于 2024-06-18 15:59:10 发布

阅读量4.8k

点赞数

分类专栏：机器学习

机器学习专栏收录该内容

49 篇文章 0 订阅

订阅专栏

1 热词发现

随着计算机硬件及互联网络设施的普及，各种技术在互联网上的应用层出不穷，并逐渐呈现出多样化和个性化的特点。互联网用户间沟通的频度和便利程度也大为增加，用户数迅猛增长。在这个背景下，各种特定应用、特定群体下涉及到的新词条、新概念也不断被创造出来。

如何快速、全面、有效地发现和识别互联网中的新词条、新概念，越来越成为一个具有挑战性的课题。为解决这个问题，新词发现(new words detection，或者称为new words Identification)技术应运而生。新词发现是指给定一个词典lex、给定时间段timespan，在特定语料上挖掘出该timespan时间段内，不在给定词典lex里出现的热门词条(比如“给力”“蒜你狠”“凤姐”“让子弹飞”……)。从定义可以看出，新词发现需要指定过滤用的词典及特定的时间段，其结果随着给定词典lex和时间段的不同而有所差异。热词发现则不需要指定过滤用的词典。词典已收录词条或词组等同样作为热词发现识别的结果(比如“春运”“世博会”“唐山大地震”……)，可算作新词发现的一个变种。热词发现工作的产出，能被应用到中文分词、中文信息检索、输入法、舆情分析等多个任务中。

下面对热词发现涉及到的信息处理技术分别进行阐述。

2 互信息

众所周知，中文与西方拼音文字的一个显著不同在于，中文以汉字字符为最小单位，词条与词条之间不存在明显的词边界。这给包含热词发现在内的中文处理造成了难度，很多应用首先需要进行语句中的词条切分，确定词条边界，即中文分词(word segmentation)。中文分词中的错误，不可避免地会影响到后续处理的精度。

热词发现应用中，词边界的确定不一定需要用中文分词。如果将搜索查询日志作为热词发现的数据源，里面的很多查询本身就是由搜索用户分好词的，可以不经分词处理。但其中仍然包含很多词组、碎词数据，仍需要确定词边界，滤掉其中的干扰数据。

热词发现首先会生成粗选的候选热词集合，生成候选的方法可以是根据已有词典分词后的高频分词碎片，这里不做赘述。

补充如下：

2.2 候选词选取

候选词的选取在很大程度上会影响程序的性能。主要包括2类方法：1）基于分词算法的N元词组；2）基于字的N元词组

在使用分词算法的情况下，需要分词词库，而N元词组就不需要词库。

2.2.1 分词算法

若语料：“中文新词识别”，若分词后结果：中文/，新/，词/，识别/。

然后候选2元词组：中文新/，新词/，词识别/。最后统计词频以此来决定是否加入词库（分词词库必须加入该词库）。

2.2.2 N元词组

若语料：“中文新词识别”，若2元词组，则结果：中文/，文新/，新词/，词识/，识别/。然后统计该2元词组的词频，并决定是否加入词库。

从上面2种方法可以看到按字的N元词组会分出更多的词组，需要处理更多的数据，效率会较低，但这种方法较全面，不会遗漏数据，不受分词词库影响。比如：“文新” 这个词组在分词中会遗漏，而按字N元不会遗漏。

--------------------------------------------------------------------------------------------------------

对每个候选串，需要评估其独立成词的能力。互信息是衡量成词能力的一个有效度量。对于单字x和单字y构成的二字串xy，其互信息定义如下

其中，表示二字串xy在给定语料上的共现概率；和分别表示单字x和单字y在语料中以各种形式出现的概率。这几个值都可以使用最大似然估计进行估算。直观上看，如果单字x、y完全独立，那么上式分子分母比值为1，互信息值为0，表征二者完全不存在关联性。但这种理想情况在现实中基本不存在。互信息综合考虑了2字搭配的共现概率以及单字本身的概率，比如字串“悲—催”之间的互信息要远远大于“了—的”，这就抵消了常见单字自身概率较大的影响。

更进一步地，根据互信息定义，系统可以采用迭代的办法，识别更长的字串。比如“悲催”已经识别为一个热词，那么也有助于热词“悲催-帝”的识别。

3 邻接多样度度量

除了互信息之外，邻接多样度(accessor variety)也是用于衡量字串独立成词能力的一个重要指标，它最早由Feng, et al在2004年提出。对于一个大于一个汉字的字串s，邻接多样度定义如下

这里称为左邻接多样度，它由两个数值相加而成：第一部分是在s前面出现的，不同的字符数目。如果某字符在s前面多次出现，只能计算一次。第二部分是s出现在句首的数目。这里如果s多次在句首出现，都要重复计数。之所以这样做，是因为很多词条常常出现在句首，或者句末。同理，右邻接多样度可做类似定义。

按照这种计算方法，还不能有效区分独立意义的词条和词组。比如一些带有各类助词(如结构助词“的地得”，时态助词“着了过”)的字串，如“的人们”“地奔跑”……称这些词为连接词。这些case同样具有较大的AV值。有必要对包含这个问题的case做特殊处理，排除它带来的干扰。首先将问题区分成三种类型：①h+core。字串开头是连接词，比如“的我”。②core+t。字串结尾是连接词，比如“我的”。③h+core+t。字串开头和结尾都是连接词，比如“的过程是”。为此可以设定如下的过滤规则。首先，如果一个2字或以上的字串满足h+core、core+t或者h+core+t中的任何一个模式，丢弃之；其次，而对于“的”、“有”、“在”这种频繁出现的助词，可以按照类似标点符号的处理方式，用作分隔符将原始字串切分成若干部分。

邻接多样度可用在类似“搜索引”碎词的识别上。这类碎词的特点是上下文单一，表现为左右邻接多样度差别很大，像“搜索引”这个case，左邻接多样度很大，而右邻接多样度基本就是1。

邻接多样度和互信息一样，都是从信息学理论的角度来表征字串成词能力，绕开了千变万化的语法规则和语言学知识，单独使用效果尚可，因而越来越多地被用到现今的信息处理应用中。

4 词条的时间衰减度

热词发现倾向将那些在最近时间片内被频繁、大量使用的词条倾向选择出来，因此需要一个度量来表征词条随时间的变化，这就是词条的时间衰减度指标TD，下面给出定义。

在给定时间段t天内，字串s的时间衰减度为

其中，是字串在第i天的使用频率；是在t天内总的使用频率。字串s的使用频率分布越集中在近期，TD值越大；反之亦然。从结果上看，TD值越接近i，字串在时间段t初期(也就是近期)的使用越频繁；越接近0，字串在时间段t初期的使用越频繁；越接近i/2，字串在整个时间t的使用就越均匀。

5 机器学习分类模型

上文提到的互信息、邻接多样度度量和时间衰减度，分别从成词边界和时间分布两个角度对字串优劣进行了判定。除此之外，还有很多特征可以用于热词发现任务中，比如词条在不同语料上的统计频率、语言模型等。为能综合评判字串的这些特征对结果的影响，需要使用机器学习模型来整合这些特征。机器学习判别分类模型(discriminative classifier)中，logistic回归模型(logistic regression)、线性SVM(Linear Support Vector Machine)、boosting模型等，都可以用到这个任务中。

6 噪音过滤

将用户输入数据作为热词发现数据源，总会遇到大量不规范输入的问题，比如错字、错音、火星文……比如在搜索查询日志里，名人“张筱雨”就有音近的“张晓宇”“张小雨”“张晓雨”，形近的“张莜雨”等几十种错误输入，给热词发现工作带来了较大干扰。因此噪音过滤工作很有必要。

分析噪音的生成源头，可以用以下几个思路去噪。

（1）噪音词与正确词条往往音近、形近。

（2）噪音词的时间分布和正确词条相似，但从词频上往往会相差一个数量级以上。

（3）噪音词和正确词条的上下文相近。

7 应用

搜狗输入法、搜狗热搜榜、百度搜索风云榜和谷歌趋势，①属于热词发现应用的几个实例。以搜狗输入法为例，它在词库方面具有覆盖全面、收录及时的特点，基本上在互联网上开始流行某种叫法、某个概念(比如“给力”“悲催”“拜月神教”“让子弹飞”……)不久，用户就能在搜狗输入法里一次输出。这是在搜狗输入法背后，热词发现流程定期运行的结果。依托搜狗丰富的产品线优势，搜狗输入法团队能方便、快速获得各种分类网页语料和搜索查询日志数据。通过使用判别分类机器学习模型，整合统计频率、互信息、邻接多样度度量和时间衰减度等不同类型的特征对候选字串进行评判，搜狗输入法能够快速、全面地获取互联网上的新词热词，提升网民的输入体验。这部分数据结果还被用到了搜索风云榜、中文分词等多个应用领域。

8 结束语

如何快速、全面地发现和识别互联网中的新词条、新概念，是一个具有挑战性的课题。本文从度量指标、后期处理等多个方面，对互联网环境下的热词发现主流技术做了概述，希望能起到抛砖引玉的作用。

[1] Richard S, Shih C. A statistical method for finding word boundaries in Chinese text[J]. Computer Processing of Chinese and Oriental Languages,1990, 4(4):336–351.

[2] Feng Haodi, Chen Kang, Deng Xiaotie, et al. Accessor Variety Criteria for Chinese Word Extraction[J].Computational Linguistics, 2004,30(1):75-93(19).

[3] Baeza-Yates R, Ribeiro-Neto B. Modern information retrieval[M]. Boston: Addison Wesley, 1999.

[4] 吕杰勇. 搜狗输入法词库是怎样炼成的[EB/OL]. [2011-03-06]. http://pinyin.blog.sohu.com/.

[5] Duda R O, Hart P E., Stork D G. Pattern Classification[M]. Beijing : China Machine Press , 2004.

overstack

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
浅谈互联网环境下的热词发现技术

1 热词发现随着计算机硬件及互联网络设施的普及，各种技术在互联网上的应用层出不穷，并逐渐呈现出多样化和个性化的特点。互联网用户间沟通的频度和便利程度也大为增加，用户数迅猛增长。在这个背景下，各种特定应用、特定群体下涉及到的新词条、新概念也不断被创造出来。如何快速、全面、有效地发现和识别互联网中的新词条、新概念，越来越成为一个具
复制链接

扫一扫

专栏目录