基于PageRank的社交网络用户影响力

1. 绪论1.1背景和目的社交网络作为一个全新的互联网交友平台与信息传播平台,每天都有海量数据在这个平台上发布。社交网络是一个虚拟社会网络,它是由许多节点构成,是现实社会在网络上的体现。每个节点都代表了现实生活中的一个人或者一个组织,节点之间的好友关系也是现实社会中的社会关系。在这个虚拟社会中,人们从事着大量的社交活动,如交友、分布消息、关注好友状态与分享视频等。在社交网络的平台上,人们可
摘要由CSDN通过智能技术生成

1. 绪论

1.1背景和目的

社交网络作为一个全新的互联网交友平台与信息传播平台,每天都有海量数据在这个平台上发布。社交网络是一个虚拟社会网络,它是由许多节点构成,是现实社会在网络上的体现。每个节点都代表了现实生活中的一个人或者一个组织,节点之间的好友关系也是现实社会中的社会关系。在这个虚拟社会中,人们从事着大量的社交活动,如交友、分布消息、关注好友状态与分享视频等。在社交网络的平台上,人们可以分享自己的心情、关注朋友的状态以及了解一些热门话题等。目前社交网络的形式主要有交友网络、博客、视频共享等形式。

拥有庞大的用户群体以及海量的信息,微博在应用领域与研究领域都有着重大的意义。研究社交网络的主要目的在于挖掘网络用户行为以及商业、应用价值等。

社会网络的信息传播与影响力的研究已经存在于各个领域,如市场营销、同性、社会学、政治学等。在传播学理论中认为人际传播网络存在一种人,这种人经常为他人提供建议或者见意等,他的想法、信息传播给其他人或者影响到其他人的行为、思想等。通过这个人人之间相传的传播方式,信息传播的成本远远小于其它方式的传播,并且传播速度也比其它方式快速。传播学中称这种人对信息的效应为影响力。

SNS 类的社交网络是基于现实社会人际关系网络组成,社交网络用户是现实世界中的个体,所以社交网络用户的影响力类似于现实世界的个人影响力。现实世界中的个人影响力不仅仅与其社会地位、教育背景等因素有关,其中包含了许多主观因素,比在线社交网络更为复杂。而在线社交网络中,我们可以提取用户的相关属性值来定量衡量一个用户在网络中影响力,对用户潜在的传播学价值与商业价值进行评估。

2. 数据集的获取

为了分析设计网络中用户影响力,我们需要从新浪微博网络的海量信息中获取所需的信息和数据,并对这些原始信息进行处理。另外新浪微博用户是现实生活中有着自主意识的个人、或者一个组织,用户在微博网络上的一切行为都是受其主观意识支配的。因此研究新浪微博用户的转发行为规律,可以获得用户影响力。

目前获得微博数据的方法主要有两种,一种是通过网络爬虫程序去读取 Web 页面的微博消息。另外一种是通过微博网络官方的 API 获取用户微博数据。通过网络爬虫的方式是指通过程序模拟用户登陆页面的操作,直接访问 Web 页面,获得 HTML 文本文件。将 HTML 文本读到内存,然后通过正则表达式来进行信息抽取,获得指定的数据。爬虫的基本原理如下:从一个指定的 URL 出发,访问该 URL 指向的页面,读取文本数据以及该页面所包含的 URL 集。抽取所关心的信息数据,再根据广度优先搜索或者深度优先搜索的方式访问下一个 URL。最后爬虫根据某种标准停止运行。

通过 API 方式获取主要是程序调用官方的 API,会返回 API 相应的官方信息数据。然后根据需求,我们再次抽取信息来获取数据。与 Web 爬虫的方式相比,调用 API 方式的优点在于程序实现简单、返回值内容比较少,处理起来方便与快速。其劣势在于 API 接口调用次数受到户门网站的限制,以及调用 API 的返回值是官方指定的数据,这些数据不一定是开发者所需要的全部信息数据。比较两种获取信息数据方法之后,本文采用调用 API 方式来获取新浪微博网络好友信息与微博信息,主要是基于以下理由:

l 经过观察新浪微博开发的 API 返回值中信息数据有本文所需要的信息数据。即本文需求的信息数据均可从调用 API 获得。

l 新浪站点对新浪微博网络做了防爬虫机制,即每个 IP 地址在一个小时内访问微博页面的次数受到限制。

所以最后我们采用调用 API 的方式来获取实验工程数据集。

基于广度优先搜索原则,本文通过调用 API 方式、多节点获取新浪微博用户的好友列表信息与微博消息列表,将获得的信息集中保存在本地服务器机器上。具体流程如下:从一个特定微博用户出发,获取其粉丝列表,然后将其粉丝列表作为下一次的搜索对象,搜索其粉丝的粉丝列表,如此地一层层获取用户关系,直到数据集满足预期要求。

我们选取 MySQL 作为后台数据库。根据实验要求,对API返回信息数据做了进一步的处理,只存储了用户的微博信息列表与粉丝关系列表。在新浪微博服务中,每个

  • 6
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值