webscraper多页爬取_Web Scraper 翻页——控制链接批量抓取数据（Web Scraper 高级用法）| 简易数据分析 05...

最新推荐文章于 2024-07-15 16:20:45 发布

小方有点小方

最新推荐文章于 2024-07-15 16:20:45 发布

阅读量1.4k

点赞数

文章标签： webscraper多页爬取

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42539414/article/details/111968836

版权

本文是简易数据分析系列的第五篇，介绍了如何使用Web Scraper进行多页爬取。通过分析豆瓣电影TOP250的URL链接规律，发现start参数控制着电影排名的起始位置。利用Web Scraper的范围指定器，通过[0-100:25]表达式抓取所有页面，最终成功获取250条电影数据。尽管数据顺序混乱，但已完成数据抓取的基础步骤。下期将介绍导入和导出Web Scraper配置文件。

摘要由CSDN通过智能技术生成

这是简易数据分析系列的第 5 篇文章。

上篇文章我们爬取了豆瓣电影 TOP250 前 25 个电影的数据，今天我们就要在原来的 Web Scraper 配置上做一些小改动，让爬虫把 250 条电影数据全部爬取下来。

前面我们同时说了，爬虫的本质就是找规律，当初这些程序员设计网页时，肯定会依循一些规则，当我们找到规律时，就可以预测他们的行为，达到我们的目的。

今天我们就找找豆瓣网站的规律，想办法抓取全部数据。今天的规律就从常常被人忽略的网址链接开始。

1.链接分析

我们先看看第一页的豆瓣网址链接：

https://movie.douban.com 这个很明显就是个豆瓣的电影网址，没啥好说的

top250 这个一看就是网页的内容，豆瓣排名前 250 的电影，也没啥好说的

? 后面有个start=0&filter= ，根据英语提示来看，好像是说筛选(filter)，从 0 开始(start)

再看看第二页的网址链接，前面都一样，只有后面的参数变了，变成了 start=25，从 25 开始；

我们再看看第三页的链接，参数变成了 start=50，从 50 开始；

分析 3 个链接我

最低0.47元/天解锁文章

小方有点小方

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。