浅谈互联网环境下的热词发现技术

热词发现

              随着计算机硬件及互联网络设施的普及,各种技术在互联网上的应用层出不穷,逐渐呈现出多样化和个性化的特点互联网用户间沟通的频度和便利程度也大为增加,用户数迅猛增长在这背景下,各种特定应用、特定群体下涉及到新词条、新概念也不断被创造出来。

              如何快速、全面、有效地发现和识别互联网中的新词条新概念,越来越成为一个具有挑战性的课题为解决这个问题,新词发现(new words detection,或者称为new words Identification)技术应运而生新词发现是给定一个词典lex给定时间段timespan特定语料上挖掘出timespan时间段,不在给定词典lex里出现的热门词条(比如给力蒜你狠凤姐让子弹飞”……)从定义可以看出新词发现需要指定过滤用的词典及特定的时间段,其结果随着给定词典lex和时间段的不同而有所差异。热词发现不需要指定过滤用的词典词典已收录词条词组等同样作为热词发现识别的结果(比如春运世博会”“唐山大地震”……)可算作新词发现的一个变种热词发现工作的产出,能被应用到中文分词、中文信息检索、输入法、舆情分析等多个任务中。

              下面热词发现涉及到信息处理技术分别进行阐述。

 

互信息

              众所周知,中文与西方拼音文字的一个显著不同在于中文以汉字字符为最小单位,词条与词条之间不存在明显的词边界。这给包含热词发现在内的中文处理造成了难度,很多应用首先需要进行语句中的词条切分,确定词条边界,即中文分词(word segmentation)。中文分词中的错误,不可避免会影响到后续处理的精度。

              热词发现应用中,词边界的确定不一定需要用中文分词。如果将搜索查询日志作为词发现的数据源,里面的很多查询本身就是由搜索用户分好词的,可以不分词处理。但其中仍然包含很多词组、碎词数据,仍需要确定词边界,滤掉其中的干扰数据。

              热词发现首先会生成粗选的候选热词集合,生成候选的方法可以是根据已有词典分词后的高频分词碎片,这里不做赘述

补充如下:

2.2 候选词选取

候选词的选取在很大程度上会影响程序的性能。主要包括2类方法:1)基于分词算法的N元词组;2)基于字的N元词组

在使用分词算法的情况下,需要分词词库,而N元词组就不需要词库。

 

2.2.1 分词算法

若语料:“中文新词识别”,若分词后结果:中文/,新/,词/,识别/。

然后候选2元词组:中文新/,新词/,词识别/。最后统计词频以此来决定是否加入词库(分词词库必须加入该词库)。

 

2.2.2 N元词组

若语料:“中文新词识别”,若2元词组,则结果:中文/,文新/,新词/,词识/,识别/。然后统计该2元词组的词频,并决定是否加入词库。

 

从上面2种方法可以看到按字的N元词组会分出更多的词组,需要处理更多的数据,效率会较低,但这种方法较全面,不会遗漏数据,不受分词词库影响。比如:“文新” 这个词组在分词中会遗漏,而按字N元不会遗漏。

--------------------------------------------------------------------------------------------------------

对每个候选串,需要评估其独立成词的能力互信息是衡量成词能力的一个有效度量。对于单字x和单字y构成的二字串xy其互信息定义如下

其中表示二字串xy在给定语料上的共现概率分别表示单字x和单字y在语料中以各种形式出现的概率。这几个值都可以使用最大似然估计进行估算。直观上看,如果单字xy完全独立,那么上式分子分母比值为1,互信息值为0,表征二者完全不存在关联性。但这种理想情况在现实中基本不存在。互信息综合考虑了2字搭配的共现概率以及单字本身的概率,比如字串“”之间的互信息要远远大于“”,这就抵消了常见单字自身概率较大的影响

              更进一步地,根据互信息定义,系统可以采用迭代的办法,识别更长的字串。比如“悲催”已经识别为一个热词,那么也有助于热词“悲催-帝”的识别。

 

邻接多样度度量

              除了互信息之外,邻接多样度(accessor variety)也是用于衡量字串独立成词能力的一个重要指标,最早由Feng, et al2004年提出对于一个大于一个汉字的字串s,邻接多样度定义如下

这里称为左邻接多样度,它由两个数值相加而成:第一部分是s前面出现的,不同的字符数目。如果某字符在s前面多次出现,只能计算一次。第二部分s出现在句首的数目。这里如果s多次在句首出现,都要重复计数。之所以这做,是因为很多词条常常出现在句首,或者句末。同理,右邻接多样度可做类似定义。

              按照这种计算方法,还不能有效区分独立意义的词条和词组。比如一些带有各类助词(如结构助词的地得,时态助词着了过)的字串,如的人们”“地奔跑……称这些词为连接词。这些case同样具有较大的AV值。有必要对包含这个问题case特殊处理,排除它带来的干扰首先将问题区分成三种类型:h+core字串开头是连接词,比如的我core+t字串结尾是连接词,比如我的h+core+t字串开头和结尾都是连接词,比如的过程是              为此可以设定如下的过滤规则首先,如果一个2字或以上的字串满足h+corecore+t或者h+core+t中的任何一个模式,丢弃之;              其次,对于这种频繁出现的助词,可以按照类似标点符号的处理方式,用分隔符原始字串切分成若干部分

              邻接多样度可用在类似搜索引碎词的识别上。类碎词的特点是上下文单一,表现为邻接多样度差别很大,像搜索引这个case,左邻接多样度很大,而右邻接多样度基本就是1

              邻接多样度和互信息一样,都是从信息学理论的角度来表征字串成词能力,绕开了千变万化的语法规则和语言学知识,单独使用效果尚可,因而越来越多地被用到现今的信息处理应用

 

词条的时间衰减度

              热词发现倾向将那些在最近时间被频繁、大量使用的词条倾向选择出来,因此需要一个度量来表征词条随时间的变化,这就是词条的时间衰减度指标TD,下面给出定义

              在给定时间段t,字串s的时间衰减度

其中是字串在第i天的使用频率t天内总的使用频率。字串s的使用频率分布越集中在近期,TD值越大;反之亦然。从结果上看,TD值越接近i,字串在时间段t初期(也就是近期)的使用越频繁;越接近0,字串在时间段t初期的使用越频繁;越接近i/2,字串在整个时间t的使用就越均匀。

 

机器学习分类模型

              上文提到的互信息、邻接多样度度量和时间衰减度,分别从成词边界和时间分布两个角度对字串优劣进行了判定除此之外,还有很多特征可以用于热词发现任务中,比如词条在不同语料上的统计频率、语言模型等。为能综合评判字串的这些特征对结果的影响,需要使用机器学习模型来整合这些特征。机器学习判别分类模型(discriminative classifier)logistic回归模型(logistic regression)、线性SVM(Linear Support Vector Machine)boosting模型等,都可以用到这个任务中。

 

噪音过滤

              将用户输入数据作为热词发现数据源,总会遇到大量不规范输入的问题,比如错字、错音、火星文……比如在搜索查询日志里,名人张筱雨就有音近的张晓宇张小雨形近的张莜雨几十种错误输入,给热词发现工作带来了较大干扰。因此噪音过滤工作很有必要。

              分析噪音的生成源头,可以以下几个思路去噪。

              1 噪音词与正确词条往往音近、形近

              2 噪音词的时间分布和正确词条相似,但从词频上往往会相差一个数量级以上。

              3 噪音词和正确词条的上下文相近。

 

应用

              搜狗输入法、搜狗热搜榜、百度搜索风云榜谷歌趋势属于热词发现应用的几个实例搜狗输入法为例,它在词库方面具有覆盖全面、收录及时的特点基本上在互联网上开始流行某种叫法、某个概念(比如给力”“悲催”“拜月神教”“让子弹飞”……)不久,用户就能在搜狗输入法里一次输出。这是在搜狗输入法背后热词发现流程定期运行的结果依托搜狗丰富的产品线优势,搜狗输入法团队能方便、快速获得各种分类网页语料和搜索查询日志数据。通过使用判别分类机器学习模型,整合统计频率、互信息、邻接多样度度量和时间衰减度不同类型的特征对候选字串进行评判搜狗输入法能够快速、全面地获取互联网上的新词热词,提升网民输入体验这部分数据结果还被用到搜索风云榜、中文分词等多个应用领域

结束语

              如何快速、全面地发现和识别互联网中的新词条新概念,一个具有挑战性的课题本文从度量指标、后期处理等多个方面对互联网环境下的热词发现主流技术做了概述,希望能起到抛砖引玉的作用

 

[1] Richard S, Shih C. A statistical method for finding word boundaries in Chinese text[J]. Computer Processing of Chinese and Oriental Languages,1990, 4(4):336–351.

 

[2] Feng Haodi, Chen Kang, Deng Xiaotie, et al. Accessor Variety Criteria for Chinese Word Extraction[J].Computational Linguistics, 2004,30(1):75-93(19).

[3] Baeza-Yates R,  Ribeiro-Neto B. Modern information retrieval[M]. Boston: Addison Wesley, 1999.

[4] 吕杰勇搜狗输入法词库是怎样炼成的[EB/OL]. [2011-03-06]. http://pinyin.blog.sohu.com/.

[5] Duda R O, Hart P E., Stork D G. Pattern Classification[M]. Beijing : China Machine Press , 2004.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值