python微博爬虫分析_python爬取和分析新浪微博(一):scrapy构建新浪微博榜单、博主及微博信息爬虫...

本文介绍了使用Python的Scrapy框架构建的新浪微博爬虫,涵盖获取微博领域、博主及微博信息的步骤。通过随机代理和IP来避免反爬,数据存储在MySQL数据库中。爬虫项目代码已开源,后续文章将进行数据挖掘和可视化展示。
摘要由CSDN通过智能技术生成

1. 爬虫项目介绍

爬虫首先基于python scrapy 框架,使用了随机用户代理和IP代理等反爬技巧,将爬取到的微博领域数据,各领域榜单博主信息和博主的微博信息分别存入的mysql数据库对应的表格中。

查看爬虫完整代码请移步GitHub:QiliWu/sinaweibo_spider​github.com

2. 爬虫逻辑

2.1 获取微博领域信息

首先爬取了V影响力榜列出的微博全部领域名称及对应的各领域微博榜单链接。

2.2 获取各领域榜单博主信息

分别进入各领域排行榜页面(以互联网为例),抓取4月 月榜 排名前100的博主相关信息。

分析上述网页发现,博主信息是通过单独请求json文件获得的。

请求的url地址为:

最后面__rnd字段的值起始为请求的时间戳

请求方式为POST, 发送的表单内容为:

其中type, date,domainId字段都可以在主页网址(互联网榜)的源码中获取到。

根据上述分析编写的请求代码如下:

def parse_domain_url(self, response):

match = re.match(r'.*?"currentDate":(\d+).*?"pagetype":"(\d+)".*?"domainId":(\d+).*', response.text, re.S)

date = match.group(1)

type = match.group(2)

domainId = int(match.group(3))

post_data = {'type': type,

'period': 'month',

'date': date,

'pagesize': '100', #一次请求100条博主信息

'page&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值