【爬虫-尝鲜】Web Scraper - Free Web Scraping谷歌插件，零基础会爬虫-CSDN博客

本文链接：https://blog.csdn.net/weixin_43213884/article/details/116655649

写在前面

个人觉得这个东西相对于一般的、简单的爬取还是比较好用的，上手也快。但是稍微复杂一点就不太好使了，其实还有很多傻瓜式的爬取工具，比如八爪鱼、火车采集器、神箭手云爬虫、后裔采集器等等等的软件。如果需要特殊定制还是学习python吧，爬虫还是蛮好玩的！当然下面介绍的这个东西，只适合简单的信息抓取。

安装

我是直接到谷歌应用商店下载安装，可能会需要科学上网，不会科学上网也没关系
请自行搜索Web Scraper 资源，对照一般的谷歌安装插件步骤流程走就是，相当的简单。在浏览器中，按F12可查看是否安装成功
在这里插入图片描述

如果不会？传送门搜索 Web scraper 下载到本地。

打开上图的扩展程序页面，
在这里插入图片描述
将下载好的插件，拖进进来即可。验证方法

如图所示！
在这里插入图片描述
在开发者模式下，你看是否有web scraper这里选项卡。

使用

这里用一个案例来教学，我需要提取记录之家的class、title、date、观看数量、剧情简介
在这里插入图片描述

创建sitemap

在这里插入图片描述

create new sitemap：创建新的爬取项目，必须是小写开头
sitemap name：随便取一个名字即可，这里我们取jilupian1

添加选择器 add new selector

首先要创建一个选择框，即是框内的包含的所有数据

在这里插入图片描述

id:随便取名字
type：爬取的数据类型，这里勾选link
selector:点击select，进行爬取的勾选，比如第一次点击，然后第二次点击下方的第二个数据，这时候你会发现全都被选取了。记得勾选multiple

点击save selector保存规则

准备爬取

在这里插入图片描述

设置等待时间，这个跟网上有关系
默认就好
在这里插入图片描述

爬取文件导出

在这里插入图片描述

翻页实现

这里的翻页其实是找规律
这里的例子我们看看？

https://www.05jl.com/bbc【第一页】
https://www.05jl.com/bbc/page/2【第二页】
https://www.05jl.com/bbc/page/3【第三页】
··················
最后页太多了！设置到11为止
可以发现，除了第一页外，其他的页面都是有规律的，其实第一页也可以是
https://www.05jl.com/bbc/page/1
不信你试一试
这是我们输入的url【网址】表达式可以为
url = https://www.05jl.com/bbc/page/[1-11:1]
记住这个方括号里面的表达其实是： [起始页-末尾页:间隔]
我们新建一下第一个url即可

后面的规则一样的

搞定