零代码爬虫（手把手图文教学）

最新推荐文章于 2023-10-03 10:15:00 发布

玛格永利

最新推荐文章于 2023-10-03 10:15:00 发布

阅读量1.9k

点赞数 12

文章标签：爬虫 web

本文链接：https://blog.csdn.net/qq_43047410/article/details/133499218

版权

今天为大家推荐一个chrome浏览器的爬虫插件神器——web scraper。让大家只需要简简单单的几个操作，就可以爬取到我们想要的数据内容。

零代码爬虫
克服多种反爬虫机制（Agent、Cookie等网站特殊防护错误）
动态多页爬取
一键导出数据

01 安装web scraper插件

第一步进入插件扩展页面

进入谷歌chrome浏览器首页，左击右上角导航栏的拼图形状的【扩展程序】按钮，再点击弹出的菜单栏中的【管理扩展程序】（图1），进入扩展程序界面，这里包含了自己已经安装的插件。

第二步进入插件商城

点击左上角的【 Chrome 应用商店】进入插件商城（图2）

第三步搜索Web scraper

在插件搜索栏输入“web scraper”，找到目标插件如图3。

第四步添加插件

点击目标插件，并将插件【添加至Chrome】，如下图4。

Successful！！！以上就完成了web scraper插件的安装了！！！

02 使用scraper插件爬虫

下面我将通过一个爬虫项目来进行阐述：

目标网址：豆瓣电影 Top 250
任务内容：爬取豆瓣网中的电影Top 250部电影的信息。

第一步进入目标网址并打开开发者模式

进入到豆瓣网指定页面，按【F12】或在右击鼠标的菜单栏中选择【检查】进入到开发者模式。

第二步创建Sitemap

首先在开发者模式下打开Scraper，然后创建新的Sitemap，并将网页的url链接填写到Start URL中，对于Sitemap name的命名，大家可以随意进行填写。点击Create Sitemap后，即可创建一个新的SItemap。在创建Sitemap后，接下来的操作才是最重要的，如下图5所示：

1、关于网址URL：如果要实现多页爬取，需要找到页面网址的规律，在上述的豆瓣Top250部电影内容中，我们分析其多个页的网址如下

https://movie.douban.com/top250?start=0&filter=

https://movie.douban.com/top250?start=25&filter=

https://movie.douban.com/top250?start=50&filter=

......

https://movie.douban.com/top250?start=225&filter=

通过分析，URL网址变化的是start变量的参数值，且表示每一页的起始行号，那么在Start URL 1中，我们做如下编辑

https://movie.douban.com/top250?start=[0:225:25]&filter=

其中[0:225:25]表示动态的变量，从0到225，且步长为25，即实现上述多页的网址变换。

第三步添加爬取字段

在图6中首先选择Add new selector；

第四步具体爬取字段添加

然后在图7中，在Id中输入title（表示要爬取的字段为电影的名称），在Type中选择Text，并点击Select。在网页中点击不同电影的名字，scraper会自动提取电影的url名称，并生成selector链接，点击Done selecting即可。在点击Done selecting后，勾选Multiple(因为是爬取多个商品url)，这里的Delay可以采用默认的值，或者是自己添加一个数值。并点击Save selector。