微博数据抓取

微博数据提取及话题检测方法研究

邱洋  
【摘要】:微博作为近年来急速流行起来的网络应用,正在快速深入每个人的日常生活中。由于其不仅可以通过电脑而且可以通过手机等移动便携设备进行内容发布,所以其具有诸如实时性,碎片性等特点。同时微博博主可以有关注和被关注的关系,微博内容也有评论转发等形式,故也体现出其互动性和灵活性。本文基于微博以上特点做了数据提取和话题检测两方面工作。 传统的网络文本数据提取一般是利用图遍历的思想通过网络爬虫搜集信息,本文在此基础上研究了使用微博开放API接口进行数据获取的方法。首先着重分析了OAuth2.0认证原理,然后研究了获取认证的流程,此认证的获取是利用开放接口的前提条件,目的是让第三方应用可以接入服务方的数据且不泄露个人信息,最后利用新浪微博的开放接口实现数据的提取并将获取的数据以更高效的JSON格式保存,实验证明此方法相比传统方法处理效率更高,在同等数据量前提下文件大小更小。 话题检测在数据挖掘领域已经得到了深入的研究,其可以从分散的多个文本文件中提取出少量的不同主题,从而可以更清晰明了地展现数据的整体概况。在进行话题检测时传统的基于空间向量模型建模方法容易造成语义丢失的问题,于是本文改进现有的特征权重和相似度计算方法,采用与语义相结合的方式,同时针对微博内容实时性的特点,在前期建模阶段添加时间参数以保证话题检测的正确性,传统的检测方法主要是针对无结构文本的分析,本文中考虑到微博转发功能的结构化特性,最后选取改进的单遍聚类Single-Pass方法实现话题检测。通过比较实验证明本文方法在话题检测标准的漏检率,错检率等上取得了较好的效果。
【关键词】: 微博 数据获取 话题检测 向量空间模型 Single-Pass
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP393.092
【目录】:
  • 摘要4-5
  • Abstract5-8
  • 1 绪论8-12
  • 1.1 研究背景8-9
  • 1.2 研究现状9-10
  • 1.3 研究内容及意义10
  • 1.3.1 研究内容10
  • 1.3.2 研究意义10
  • 1.4 论文组织结构10-12
  • 2 相关背景知识简介12-18
  • 2.1 微博12-15
  • 2.1.1 微博及其特性12-15
  • 2.1.2 微博在生活中的作用15
  • 2.2 数据挖掘15-17
  • 2.2.1 数据挖掘的主要任务16
  • 2.2.2 数据挖掘的主要步骤16-17
  • 2.3 WEB挖掘17-18
  • 3 微博数据提取方法研究18-36
  • 3.1 常用网络信息采集方法18-24
  • 3.2 利用API提取微博数据方法研究24-36
  • 3.2.1 开放平台简要介绍24-25
  • 3.2.2 OAuth 1.0与OAuth 2.0协议分析25-30
  • 3.2.3 利用开放API获取微博数据30-36
  • 4 微博话题检测方法研究36-49
  • 4.1 常用话题检测算法流程36-44
  • 4.1.1 话题数据的提取及前期处理36-37
  • 4.1.2 模型化方式表示文本37-40
  • 4.1.3 计算文本相似度40-41
  • 4.1.4 选择聚类算法41-44
  • 4.2 微博文本的建模44-45
  • 4.2.1 微博数据的预处理44
  • 4.2.2 构建文本模型,特征项及特征权重44-45
  • 4.3 微博话题检测算法45-49
  • 4.3.1 话题相似度计算45-47
  • 4.3.2 话题检测流程47-49
  • 5 实验及结果分析49-54
  • 5.1 获取方式及存储方式比较49-50
  • 5.2 采集数据50
  • 5.3 实验评价标准50-51
  • 5.4 相似度参数及时间参数的确定51-52
  • 5.5 不同检测算法比较52-53
  • 5.6 不同相似度算法比较53-5
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值