网络舆情分析技术 读书笔记2

网络舆情的信息采集

 

网络舆情分析,广义上包括从网络舆情的信息采集开始到最后舆情信息服务这一系列流程,首先是从互联网上采集舆情信息,对采集得到的web页面进行信息预处理,在预处理的基础上进行关键信息的抽取,然后利用关键信息对舆情信息进行内容上的分析,最后将分析结果提供给用户。

 

网络信息自动采集一般分为数据抓取与数据存储两部分。

 

网络信息的分类及其抽取

 

网页内容的自动分类

文本自动分类,一般是先把一组预先定义类别的文档作为训练集,然后对训练集进行分析,并得到分类器。这种分类器通常需要一定的测试过程,再经过不断的训练。在实际中,随着爬取网页的增多,分类器可以进一步的学习,丰富原有的类型词汇矢量表。

 

一般把文本分类方法分为以下三类:

词匹配法。可以分为简单词匹配和同义词匹配

基于领域专家知识的方法。实施将困难。

统计学习法。基本思路是先收集一些与待分类文档同处于一个领域的文档作为训练集,这些训练集由专家进人工分类,保证分类的准确性。然后从中挖掘类别的统计特性,再利用已有指导学习方法将待分类文档分到最可能的类别中去。在分类过程中,定期或不定期的对训练集更新。此种方法,目前较实用。

 

文本分类中常用算法:

简单向量距离算法

KNN

 

信息抽取即直接从自然语言文本中抽取事实信息,并以结构化的形式描述信息,供信息查询,文本深层挖掘,自动问答等。Web信息抽取,处理对象为半结构化的网页信息。Web信息抽取技术的核心是从无结构化和半结构化的web页面中抽取用户感兴趣的信息。

被抽取出的信息被转换为结构化,语义更为清晰的格式。

 

Web信息抽取技术:

基于自然语言理解的方式。

基于包装器的归纳的方式,包装器是一种软件构件,有一系列的抽取规则以及应用这些规则的程序代码组成,负责将数据由一种模式转换成另一种模式。通常,一个包装器只能处理一种特定的信息源。从几个不同的信息源中抽取信息,需要一系列的包装器程序库。包装器一般包括规则库,规则执行模块,信息转换模块。使用包装器的缺点:可扩展性差,可重用性差,缺乏对页面的主动理解。

基于本体的方式。信息抽取系统中被分析的文档通常是针对某个特定的领域,该领域的文档典型的包含一些特定的待抽取成分。通过分析这些成分的特殊词法语义形态,就能相对准确抽取这些成分。

基于HTML结构的方式。该类方法是根据web页面的结构定位信息。在信息抽取之前通过解析器将web文档解析成语法树,通过自动或半自动的方式产生抽取规则,将信息抽取转化为对语法树的操作实现信息抽取。

 

 

话题检测与跟踪技术

是一种检测舆情新出现的话题并追踪该话题发展动态的信息智能获取技术,其实质是主题搜索引擎技术。面向专业主题的搜索引擎是对网络中某个主题的信息进行采集,索引并整合,然后抽取出需要的数据进行处理后再以某种满足用户个性化需求的形式返回给用户。



构造主题搜索引擎的核心是面向主题的爬行技术。主题爬虫会分析每个页面的链接,判断哪些链接指向的页面可能是和预定主题相关,对这些链接进行优先爬行,和主题无关的链接则选择放弃。


参考书目:

网络舆情分析技术 王兰成 著 国防工业出版社



 

 

 

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值