使用Web Scraper插件实现简单爬虫

Smiling_Elf

已于 2023-01-15 10:30:55 修改

阅读量1.3k

点赞数

分类专栏：爬虫文章标签：爬虫

于 2023-01-15 00:03:25 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42493573/article/details/128690172

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1、添加扩展程序

Microsoft Edge添加扩展程序Web Scraper（蜘蛛网图标）

2、进入开发者模式

在所需爬取网页界面下，打开Web Scraper：Windows系统下使用 Ctrl+shift+i 即可进入开发者模式，设置停靠位置在下方

3、Sitemap/selector/subselector

三者属于分级关系，使用当前网址创建Sitemap，在当前网址下可以创建多个selector，一个selector下可以再创建多个子selector

Sitemap name自定义即可，命名原则大致遵守小写英文下划线即可。

注：在指定网址下Web Scraper的爬虫机制是自动翻页的，因此有多页需要爬取时可以自定义page=[start-end]。

4、创建父selector

在该Sitemap下创建一个selector，该父selector所在目录为_root。

在创建父selector的过程中需要注意的是：

（1）父selector的type按需设置，常用的为element类型(一个element下包含多个text，因此子selector的type一般选择text)

（2）不同网页下每个条目的元素组成不一样。如某网页下，每个条目信息可以点击选为一个element，但是另一个网页界面一个条目的信息没法直接整体点选为一个element，而是分成了三块，此时，可以使用select后出现的P标识进行选中element升级，将三块作为一个整体element

（3）在设置父selector时，在某一条目开始点选element，之后任意点击同一页下该条目之后的其余条目，则默认选择爬取该页的该条目及其之后所有条目内容，该条目上面的条目则不在选择范围内，且其余页的选取同第一页相同，系统会自动生成选择源代码。例如，在某网址下，最多只展示10页内容，每页包含30个条目，实验过程中，从第一页第二个条目点选的element，本来应该有300个条目，但最终实际爬取到了290个条目信息。

5、在父selector下创建子selector

在创建子selector过程中，需要注意的是：

（1）子selector的type往往设置为text类型

（2）子selector点选text内容时，不像父selector中一样，需要点击两个条目的，仅需要仅能点击第一个条目中的，点击后默认爬取所有条目相同位置的text内容

（3）根据信息需求，自定义爬取的子selector

6、根据设置，爬取信息

点击Web Scraper下的Sitemap **，点击Scrap即可爬取网页内容，爬取时会跳出目标网址页面。爬取完后界面如下：

点击refresh即可直接查看爬取结果

7、结果导出

Sitemap **下点击Export data即可导出xlsx或csv形式的爬取数据结果

参考：

Web Scraper傻瓜式爬虫插件之进阶套路 - 简书 (jianshu.com)

零基础用爬虫爬取网页内容（详细步骤+原理） - 知乎 (zhihu.com)

小节：使用Web Sraper插件进行信息爬取对网页规整性要求较高，所获取的信息也因此受到了较大的局限性，但操作简单易上手。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
使用Web Scraper插件实现简单爬虫

使用Web Scraper爬取网页信息详细教程
复制链接

扫一扫

专栏目录

Smiling_Elf CSDN认证博客专家 CSDN认证企业博客

码龄6年

13: 原创

56万+: 周排名

164万+: 总排名

1万+: 访问

: 等级

135: 积分

5: 粉丝

5: 获赞

2: 评论

19: 收藏

私信

关注

热门文章

分类专栏

write 1篇
爬虫 1篇
MySQL 9篇

最新评论

Visual Studio+Texlive编写Latex文档的使用常见问题以及解决方法
CSDN-Ada助手: 恭喜你写了第13篇博客！标题中的主题非常实用，对于使用Visual Studio和Texlive编写Latex文档的常见问题和解决方法感兴趣的读者来说，这篇博客一定非常有价值。不仅提供了问题解决的方法，还能帮助读者更好地利用这两个工具来提高文档编写效率。在下一步的创作中，或许你可以进一步扩展关于Latex文档的使用技巧，比如如何排版数学公式、插入表格或者图片等方面的内容。这些内容对于初学者或者有一定基础的用户来说都非常有帮助。同时，你也可以在博客中分享一些自己在使用过程中遇到的实际案例，这样读者就能更好地理解和应用你所提供的解决方法。继续保持写作的热情，期待看到更多有关Latex文档的精彩内容！
Visual Studio+Texlive编写Latex文档的使用常见问题以及解决方法
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/617127452。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。