舆情监控的实现技术及相关公司比较

舆情监控的实现技术

舆论引导顺利展开的前提和保障是舆情信息的搜集、处理与展示工作,这些工作对于制定引导策略至关重要。

1. 网络舆情信息采集技术

(1)元搜索技术

搜索引擎在我们的日常互联网使用中非常普遍,而用户在搜索时往往使用单一的搜索引擎,单一的搜索引擎并不能保证覆盖100%的互联网信息,这导致了检索结果不全数量不够的缺点存在。元搜索技术针对这一缺点建立在已有搜索引擎服务之上,集成多个单一优秀的搜索引擎,这样做有利于集合多个搜索引擎的优势供用户选择。

(2)网络爬虫技术

网络爬虫(Crawler)又称网络蜘蛛(Spider),是一种能够根据需求提取网页的脚本或程序,可使用多种高级编程语言编写,目前使用十分广泛。它的主要目的是将网页下载到本地形成一个互联网内容的镜像备份,从而获得网页信息。

2. 网页解析与预处理技术

这里主要包括信息抽取技术、分词技术和文本形式化技术。这些技术能够协作工作,是将互联网数据转化为易于理解的信息数据的重要一步,是决定舆情监测效果的关键。

(1)信息抽取

信息抽取技术主要包含有两类,基于模板的抽取方法的思路是经过分析,同一网站或类似网站的网页格式基本固定,网页内容可能随时更新,但使用的模板却稳定不变,这样方便了自动化处理。基于网页结构信息的抽取方法使用网页结构分析技术,能够对目标信息的抽取实现自动化,多数爬虫爬得的数据为半结构化,不能直接处理,针对这一特点可采用这种方式。

(2)分词技术

分词技术用于将语句拆分成单词,便于理解,现在的检索系统中常用的分词算法可分为三类,基于统计的分词方法(Based on statistics)、基于理解的分词方法(Based on understanding)和基于字符串匹配的分词方法(Based on character matching)。

(3)文本形式化技术

文本形式化的目的是使用一定可衡量的因素来代表文本,从而方便掌握文本的各种特点,它是高级检索的基础工作。常用的文本形式化算法采用有以下模型:布尔模型(Boolean Model)、概率模型(Probabilistic Model)、聚类模型(Cluster Model)和向量空间模型(Vector Space Model)等。

3. 文本聚/分类技术

经过一系列的舆情信息搜集与处理,我们得到了大量数据集,而这些舆情的主题并不十分明显,这里我们就需要用到数据挖掘中的分类和聚类方法来判断所得信息主题是否与部门监测的主题一致,预测舆情的发展趋势,为舆论引导的相关工作提供了参考。

1.文本分类算法

分类算法通过数据集中的数据表现出来的特性(这里也就是通过文本形式化生成的文本特征)来对数据进行分类,从而得到与监测主题相关的舆情信息,结果直观。

2.文本聚类算法

聚类算法的中心思想是把数据元素分成簇,使簇内元素相关性更大,不同簇间元素相关性小,从而达到相互区分的目标,利用这点可以将网络舆论的热点进行归纳,很容易在一个簇中发现近期舆论的突出表现和倾向,这为舆论引导工作点明了方向。

4. 舆情信息分析与展示技术

(1)可视化分析

可视化分析技术的设计思想是将数据库(这里就是我们的舆情信息数据库)中的数据项映射成生成图元素,将各个数据项特征表示成图形,并且使用高维度方式来代表数据元素的各个属性值大小。使用线状图、柱状图等统计学图形,能够对相关数据更直观更方便的了解和分析。

(2)观点倾向分析

观点倾向分析有很多种方式,例如获取网络热门事件相关网页,利用聚类算法处理评论,得到的句集使用分词技术,然后通过对比事先建立的语料库中的关键词计算语句的情感倾向,从而得到网民情感倾向,了解网民的真正看法。

网络舆情监测框架

在了解舆情信息工作需要使用的相关技术后,我们需要将各部分工作串联起来,组成相应工作模块,与舆论引导工作相结合,共同构成网络舆情监测与引导框架。本节提出一个基于四模块结构的框架系统,分别包括舆情信息搜集模块、舆情信息处理模块、舆情信息分析展示模块和舆论引导模块。

1. 舆情信息搜集模块
舆情信息采集模块设计的目的是尽可能地从互联网获取最全面的舆情信息,对全网舆情多发点进行全面监控。根据舆情多发点网站性质的不同,且由于传统单一的爬虫技术获得垃圾信息较多、工作效率低等缺点,这里设计四种爬虫技术协作使用。这里还需要一种爬虫调度机制对几种爬虫技术进行合理地调度。

2. 舆情信息处理模块
舆情信息搜集模块为监测工作提供基础数据,舆情信息处理模块的目的是对搜集到的数据进行信息化处理和过滤。信息抽取工作要根据爬虫种类的不同区分应用的处理策略。

3. 舆情信息分析展示模块
我们知道,很多舆情监测工作都有一定目的性,舆情信息分析展示模块设计目的是可以根据监测者提供的主题、关键词,应用分类算法确定是否有关危险舆论出现,尽快发现并进行处理;应用聚类算法得到民众的几种观点所在并理性分析舆情发展态势做出应对措施,这其中包括了观点倾向分析技术的应用。同时语料库的建立能够在引导相关技术方面有所应用。

相关公司比较

壹沓

1.分布式爬虫系统核心架构设计以及系统规划
2.指定网站、APP等数据爬取,第三方数据对接,按规定入库
3.对互联网海量数据进行整合、分析挖掘开发Web展示系统
4.大数据文本挖掘中的自然语言处理
5.针对互联网文本内容的情感判断,主题发现,聚类分类
6.语料获取、筛选、预处理,特征提取,模型训练,算法设计,工程优化等
7.调研前沿人工智能技术,追踪并实验最新NLP技术,参与搭建和实现相关模型,构建公司AI实验DEMO产品

拓尔思

1、自然语言处理(NLP)算法研究和工程实现
2、侧重于文本特征信息提取、动态本体库、知识图谱、文本分类、智能分词校对等算法研究
3、研究深度学习在NLP中的应用,对比传统模式效果

AISTREAM

1.利用RPA每几个小时访问百度、必应网站搜索关键字或通过搜狗搜索微信、知乎搜索关键字,并获取前50页各链接的标题及概述。
2.RPA访问百度AI开发平台中免费的“情感倾向分析”页面,通过该服务分析每一条概述信息,得到情感偏向。
3.RPA将情感偏向值小于50的搜索结果保存至EXCEL文件,并通过邮件发送给相关人员。
4.设置自动调度服务,每2小时进行自动运行舆情监控RPA流程。

唯品会

https://www.infoq.cn/article/yqmmGK_ofbDuzVzDDwCN

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值