用爬虫抓取新浪微博粉丝

准备工具

云采爬虫

任务描述

给定几百个个人主页地址,比如类似这样:

https://weibo.com/u/1688541667?refer_flag=1005050008_&is_hot=1

抓取这些博主的粉丝数据

如图所示,我们先获取粉丝列表地址
在这里插入图片描述
然后进行翻页,能获取前5页的粉丝。每页20条数据,每个博主可以抓100个粉丝。

700个博主,我们需要抓大概7万条数据
在这里插入图片描述

这是我们需要抓取的字段:

在这里插入图片描述

构建登录模块

模拟浏览器登录账号去抓取的,所以我们需要单独创建一个登录模块

新浪微博的登录界面:
在这里插入图片描述
流程图
在这里插入图片描述
这个登录模块主要是输入账号和密码,然后点击登录,使用流程图创建很简单。

我们还可以判断登录状态,包括成功和失败,登录成功,我们才会开启采集任务,登录失败,我们就报错。

采集流程

整体如下:

在这里插入图片描述

一开始,我们的思路是爬取每个用户的个人主页去获取用户信息,包括性别、简介、地区等等,后来算了一下,7万个粉丝,需要抓取7万个地址,这个量太大了,后来我们改变了思路,直接从列表获取数据

在这里插入图片描述
包括用户名、性别、地区都在列表了,所以我们这个爬虫是没有详情页的。

所以在流程图中,我们使用了一个 【表格数据页】

在这里插入图片描述

至于性别,页面没有直接显示男女,我们获取到性别的图标class,直接做替换

在这里插入图片描述

我们做个替换:

在这里插入图片描述

抓取的结果如下:

在这里插入图片描述

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值