1、添加扩展程序
Microsoft Edge添加扩展程序Web Scraper(蜘蛛网图标)
2、进入开发者模式
在所需爬取网页界面下,打开Web Scraper:Windows系统下使用 Ctrl+shift+i 即可进入开发者模式,设置停靠位置在下方
3、Sitemap/selector/subselector
三者属于分级关系,使用当前网址创建Sitemap,在当前网址下可以创建多个selector,一个selector下可以再创建多个子selector
Sitemap name自定义即可,命名原则大致遵守小写英文下划线即可。
注:在指定网址下Web Scraper的爬虫机制是自动翻页的,因此有多页需要爬取时可以自定义page=[start-end]。
4、创建父selector
在该Sitemap下创建一个selector,该父selector所在目录为_root。
在创建父selector的过程中需要注意的是:
(1)父selector的type按需设置,常用的为element类型(一个element下包含多个text,因此子selector的type一般选择text)
(2)不同网页下每个条目的元素组成不一样。如某网页下,每个条目信息可以点击选为一个element,但是另一个网页界面一个条目的信息没法直接整体点选为一个element,而是分成了三块,此时,可以使用select后出现的P标识进行选中element升级,将三块作为一个整体element
(3)在设置父selector时,在某一条目开始点选element,之后任意点击同一页下该条目之后的其余条目,则默认选择爬取该页的该条目及其之后所有条目内容,该条目上面的条目则不在选择范围内,且其余页的选取同第一页相同,系统会自动生成选择源代码。例如,在某网址下,最多只展示10页内容,每页包含30个条目,实验过程中,从第一页第二个条目点选的element,本来应该有300个条目,但最终实际爬取到了290个条目信息。
5、在父selector下创建子selector
在创建子selector过程中,需要注意的是:
(1)子selector的type往往设置为text类型
(2)子selector点选text内容时,不像父selector中一样,需要点击两个条目的,仅需要仅能点击第一个条目中的,点击后默认爬取所有条目相同位置的text内容
(3)根据信息需求,自定义爬取的子selector
6、根据设置,爬取信息
点击Web Scraper下的Sitemap **,点击Scrap即可爬取网页内容,爬取时会跳出目标网址页面。爬取完后界面如下:
点击refresh即可直接查看爬取结果
7、结果导出
Sitemap **下点击Export data即可导出xlsx或csv形式的爬取数据结果
参考:
Web Scraper傻瓜式爬虫插件之进阶套路 - 简书 (jianshu.com)
零基础用爬虫爬取网页内容(详细步骤+原理) - 知乎 (zhihu.com)
小节:使用Web Sraper插件进行信息爬取对网页规整性要求较高,所获取的信息也因此受到了较大的局限性,但操作简单易上手。