网络热词分析技术-CSDN博客

本文链接：https://blog.csdn.net/baoyan2015/article/details/53202463

一热词定义

近年来，网络热词作为一种崭新的语言方式和文化景观，已越来越多地引起语言学界的关注。百科上对热词的定义如下：热词就是热门词汇，热词反映了某些区域的人们在某个时期普遍关注的问题和事物，具有时代特征，对热词进行快速识别和定向跟踪，可以快速地了解民情、了解社会动态和发展趋势，更快捷更准确地抓住舆论导向，从而进行正确地引导和宣传。

热词可以用社会关注度来量化，它揭示的是风靡一时的、吸引人眼球的事物、问题或者事件。热词可以反映一定的热点问题、热门话题。热词的特点是某个时间段之前很少出现，某个时间段之后突然大量出现，这说明某个时间点一定发生了与该热词相关的事件从而引起人们的特别关注。

比如说，“打酱油”出之于一路人在广东电视台记者采访他时说的“关我鸟事，我是出来打酱油的”，之后因其形象地表达了某些人的无奈甚至无语，这种搞笑、诙谐的表达方式迅速在网络上蹿红，成为了人们茶余饭后的口头禅。

热词具有以下特征：1）在某一时间段内起点低，增长迅速；2）具有很强的延续性，跟热点词汇 W 相关的其它词汇也被报道；3）热度随着时间的流逝而改变。

二研究方法

目前关于热词识别的研究主要包括了未登录词识别(UnknownWords Identification，简称UWI)和新词识别(New Words Identification，简称NWI)。未登录词和新词的区别在于，未登录词是未出现在当前已有的词库或者词典中的词，而热词是指随着时代的发展而新出现的或者旧词新用的词，如“伤不起"，“坑爹"等。有些研究者将热词的研究与新词视为同一范畴。对于未登录词的识别，由于UWI是中文分词过程中的重要阶段，因此相关研究开展地也比较早，研究成果比较多；但是对于热词识别这块领域的研究这几年才刚刚兴起，所以所用的技术和算法仍不够成熟，尚处于摸索阶段，研究成果还不多。由于热词在某种程度上也可以算作未登录词，因此不少研究者对这两种概念不加区分。

热词分析技术包括了热词发现、热词关联技术，热词关联技术又称为词群关系技术。对热词发现技术的介绍，按照发现过程将其分为预处理、高频串提取、以及垃圾串过滤三个过程。对热词聚类技术的介绍，按照聚类的过程将其分为文本表示、特征提取、相似度计算、聚类算法实施四个过程。

1 热词发现技术

汉语中任意相邻的汉字都有可能组成热词。然而，要发现有意义的热词，而不是得到垃圾串，按照机器学习的角度，目前主要有两种方法：一种是有监督的方法，这种方法主要利用的是大规模的已经训练好的语料，在此基础上通过统计的方法来确定热词的边界；另一种是无监督的方法，这种方法与有监督的方法相比最大的区别就是它不需要大规模的训练语料，而是利用对文本进行串频统计，将频率大于一定阈值的高频串作为候选热词。

两种方法各有利弊，有监督的方法产生的垃圾串少，适合于热词的在线识别，对低频词的识别率较好，在技术上研究的成果也比较多，但是由于建立在大规模语料库的基础上，前期的准备工作比较复杂。无监督的方法虽然不需要大规模的语料库的支持，长度也不受限制，但是由于低频词的识别效果较差，垃圾串也产生的比较多，而且需要复杂的过滤方法，因此不适合在线的热词识别。

按照统计的角度，对于热词的检测方法总体可以分为三大类：基于规则、基于统计和规则与统计相结合。基于规则的方法的优点是准确率高，但灵活性差，规则维护困难；基于统计的方法的优点是灵活性好，可移植性强，但需要对大规模语料进行训练，会产生大量的垃圾串，准确率并不是很高。目前，很多研究将两者结合，这样既能以统计方法为工具，又能通过语法规则对候选词进行过滤，既能省时省力，又能达到比较好的准确率。

2 热词关联技术

通过热词发现搜集到的热词，只是单纯的词语，希望能将这些词语通过组合的方式表达某个主题，或者说某个热门的话题，因此可以利用聚类的方法对这次热词进行聚类，聚类的方法有很多种，根据聚类目的和应用的不同，我们将热词聚类分为层次聚类法和平面划分法两种。在聚类之前我们先构造文档向量空间计算这些词汇的索引信息，包括文档位置，文档频率，然后基于互信息和TD／IDF两种权重计算方法分别计算这些词语之间的相似度，然后采用层次聚类法和平面划分法分别对这些词语进行聚类。

三具体实现路线

1 基于 LDA 模型和微博热度的热点挖掘：基于微博的评论数、转发数等特征量，构建描述微博热度的模型; 将微博热度作为 LDA 模型的分析基数，由此得到基于热度的微博主题分布、微博主题热度表和微博热词表; 将该结果与传统 LDA 模型得到的主题分布作对比，总结分析使用基于热度的LDA 模型的优势。LDA把高维的词空间映射到具有可解释性的低维的主题空间, 能够用于文本的降维。

2 基于微博的热点话题发现：该论文首先从微博内容特征出发，利用元递增模型抽取重复字串，依据绝对词频、相对词频及互信息、邻接信息熵等统计特征过滤垃圾字串从而进行新词识别提取微博新词，并利用此结果提升分词结果的准确性；之后利用模型挖掘微博数据的主题信息，将主题作为话题从而得到候选话题列表，同时可确定话题、词语、文档之间的关系。最后利用GibbsLDA++工具的结果，将词语与其所属话题看作一个整体即单义词单元，并通过计算单义词单元的权重即热度得到话题热度，对活题按热度排序以得到热点话题。

3基于时间特性的微博热门话题检测算法研究：时间参数的重要性：1）用户往往对最新发生的事情感兴趣。2）现有的热门话题排名技术基本还是青睐于链接关系和用户之间的关注关系。PageＲank 和 HITS 算法是知名的基于链接的排序算法。但它们都没有考虑时间维度。该文基于PageＲank 经典算法提出了一带时间参数的热门话题检测算法( Time PageＲank) 。算法首先使用投票机制取出用户感兴趣的话题并记录话题的生成时间; 然后用权值计算公式计算每个话题的权值; 最后使用 Time PageＲank 算法对这些话题进行排名，从而检测出微博中的热门话题。

4面向互联网舆情的热词分析技术：该文对热词分析的两项关键技术———热词发现和热词关联技术进行了研究。在热词发现阶段,首先采用命名实体识别技术和高频串统计技术进行短语串的挖掘,继而采用基础权值和波动权值两项指标进行热度权值的计算。在热词关联阶段,按热词权值高低进行热词类的划分,通过同现率的原则确定热词类之间的关联计算。

5 基于新闻标题的网络热词发现算法：使用基于PAT—Tree的候选短语提取算法，该技术使用的是半无限长字串索引模型，通过修改PAT—Tree数据结构使之适合处理变长中文字符串及非中文字符。根据交互信息评估字符串的关联程度，并结合新闻报道和网络热词的特点提出向前过滤算法发现网络热词。基于PAT—Tree的向前过滤算法提取短语准确率比基N—gram模型的Nagao算法和C -value值算法有显著的提高。

6 面向微博热点话题发现的多标签传播聚类方法研究：针对传统热词抽取方法难以适用于微博数据的问题,提出一种基于老化理论的词生命值计算模型用于热词抽取,并基于热词间的相关性构建词共现网络;针对传统的词聚类算法不能较好地解决话题间存在重叠热词以及时间效率不佳的问题,引入多标签传播思想,设计一种接近线性时间复杂度的多标签传播聚类算法(TCMLPA)用于词共现网络的热词聚类,获得热点话题集.词生命值计算模型能够有效过滤噪声并提取热词,TCMLPA 算法则能够在保证聚类结果稳定性的情况下,有效提高热点话题发现的精度和效率。

7 基于统计与规则的热词分析：首先，用分词软件对语料进行切分，在此基础上对传统的Nagao串频统计算法进行了改进，利用改进后的算法提取高频的重复串作为候选子串。然后，对于非实体短语，将其分为单字串和复合串，对五字以内的候选串采用通用度过滤、IWP过滤、互信度过滤、词性过滤以及首尾字过滤等手段进行垃圾串的过滤工作，并提出了一种针对热词多种组合模式的垃圾串过滤算法。最后，构造了文档特征向量，提出了基于互信息的层次聚类算法和基于TD／IDF的平面划分聚类算法，从互信息和TD／IDF两种角度分别计算每个热词的权重，按照热词权重对所有的热词短语进行排序，取权重高的形成热词类，同时把同现程度很高的热词短语合并成一个类。

四关于热词研究总结

1）定义：一段时间内突然频繁使用，可能是新词、未登录词或者旧词新用，表达一定的含义，反应社会公众聚焦点。

2）研究路线：研究人员一般路线为文本预处理——热词候选词——热词——热词聚类。其中，预处理包括分词、停用词去除以及降维处理；热词提取包括热词候选词集的获取以及垃圾串的过滤;然后进行热词排名，最后进行热词聚类形成热门话题。阅读的论文针对其中的各个环节进行算法的提出和改进。

目前需要做的工作的一些思考：

1）数据集：想做一些新闻网站比如财经类文章内热词的提取，这样自己爬的数据如何找对比试验？一些论文实验的代码并没有开源，，，而且定位在从新闻中找热点词汇是否符合主流值得商榷，看到的比较多的是从论坛、微博中提取热词并分析。

2）预处理：基本上目前的研究都是在分词软件的基础上进行分词，然后提取候选短语。目前论文在候选短语的提取上做了许多工作。如垃圾串的去除以及获选短语的提取算法等

3）热词：针对候选短语热度排名问题也有相关论文讨论。

4）热词聚类：这可以归到聚类算法的研究了。成果比较多。