基于
Python
的新浪微博用户信息爬取与分析
邓文萍
【摘
要】
摘要:本文设计并实现了一个微博用户信息爬取与分析系统
,
利用
Cookie
实现了用户的模拟登录
,
使用
Python
语言的
Rquests
、
lxml
等函数库
,
爬取、处理了该微博用户数据
,
并以“央视综艺国家宝藏”为例
,
从微博发布动作
偏好、微博信息特征、微博关键词等方面展开了分析
,
获取了一些有趣的发现
,
为
进一步用户分析与画像打下基础。
【期刊名称】
数字技术与应用
【年
(
卷
),
期】
2019(037)007
【总页数】
3
【关键词】
新浪微博;爬取分析;
Python
0
引言
新浪微博是目前我国最大的短消息社交平台
,
据新浪微博
2017
年全年财报称
,
截
至
2017
年
12
月
,
微博月活跃用户增至
3.92
亿。社交用户的增多
,
意味着信息的
极具爆炸
,
基于微博数据的社交用户行为分析与画像引起了人们的关注
[1]
。该技
术能够对用户进行画像
,
用于社交群体发现
[2]
、个性用户发现
[3]
等。
本文使用
Python
语言
,
通过模拟用户登录
,
实现一种针对新浪微博的爬虫
,
并对获
得的数据进行有效地分析。该文设计并实现了新浪微博爬虫程序
,
以微博用户
“央视综艺国家宝藏”为例
,
对他发布的微博内容进行了全部抓取
,
并从微博发布
行为、微博信息特征、微博关键词等方面
,
进行了数据分析
,
为用户分析与画像打
下基础。
1
爬虫系统设计