python微博爬虫分析_python爬取和分析新浪微博(一):scrapy构建新浪微博榜单、博主及微博信息爬虫...

1. 爬虫项目介绍

爬虫首先基于python scrapy 框架,使用了随机用户代理和IP代理等反爬技巧,将爬取到的微博领域数据,各领域榜单博主信息和博主的微博信息分别存入的mysql数据库对应的表格中。

查看爬虫完整代码请移步GitHub:QiliWu/sinaweibo_spider​github.com

2. 爬虫逻辑

2.1 获取微博领域信息

首先爬取了V影响力榜列出的微博全部领域名称及对应的各领域微博榜单链接。

2.2 获取各领域榜单博主信息

分别进入各领域排行榜页面(以互联网为例),抓取4月 月榜 排名前100的博主相关信息。

分析上述网页发现,博主信息是通过单独请求json文件获得的。

请求的url地址为:

最后面__rnd字段的值起始为请求的时间戳

请求方式为POST, 发送的表单内容为:

其中type, date,domainId字段都可以在主页网址(互联网榜)的源码中获取到。

根据上述分析编写的请求代码如下:

def parse_domain_url(self, response):

match = re.match(r'.*?"currentDate":(\d+).*?"pagetype":"(\d+)".*?"domainId":(\d+).*', response.text, re.S)

date = match.group(1)

type = match.group(2)

domainId = int(match.group(3))

post_data = {'type': type,

'period': 'month',

'date': date,

'pagesize': '100', #一次请求100条博主信息

'page&

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值