使用Web Scraper插件实现简单爬虫

1、添加扩展程序

        Microsoft Edge添加扩展程序Web Scraper(蜘蛛网图标)

2、进入开发者模式

        在所需爬取网页界面下,打开Web Scraper:Windows系统下使用 Ctrl+shift+i 即可进入开发者模式,设置停靠位置在下方

3、Sitemap/selector/subselector

        三者属于分级关系,使用当前网址创建Sitemap,在当前网址下可以创建多个selector,一个selector下可以再创建多个子selector

         Sitemap name自定义即可,命名原则大致遵守小写英文下划线即可。

注:在指定网址下Web Scraper的爬虫机制是自动翻页的,因此有多页需要爬取时可以自定义page=[start-end]。

4、创建父selector

        在该Sitemap下创建一个selector,该父selector所在目录为_root。

 在创建父selector的过程中需要注意的是:

(1)父selector的type按需设置,常用的为element类型(一个element下包含多个text,因此子selector的type一般选择text)

(2)不同网页下每个条目的元素组成不一样。如某网页下,每个条目信息可以点击选为一个element,但是另一个网页界面一个条目的信息没法直接整体点选为一个element,而是分成了三块,此时,可以使用select后出现的P标识进行选中element升级,将三块作为一个整体element

 (3)在设置父selector时,在某一条目开始点选element,之后任意点击同一页下该条目之后的其余条目,则默认选择爬取该页的该条目及其之后所有条目内容,该条目上面的条目则不在选择范围内,且其余页的选取同第一页相同,系统会自动生成选择源代码。例如,在某网址下,最多只展示10页内容,每页包含30个条目,实验过程中,从第一页第二个条目点选的element,本来应该有300个条目,但最终实际爬取到了290个条目信息。

5、在父selector下创建子selector

 在创建子selector过程中,需要注意的是:

(1)子selector的type往往设置为text类型

(2)子selector点选text内容时,不像父selector中一样,需要点击两个条目的,仅需要仅能点击第一个条目中的,点击后默认爬取所有条目相同位置的text内容

(3)根据信息需求,自定义爬取的子selector

6、根据设置,爬取信息

        点击Web Scraper下的Sitemap **,点击Scrap即可爬取网页内容,爬取时会跳出目标网址页面。爬取完后界面如下:

点击refresh即可直接查看爬取结果

7、结果导出

        Sitemap **下点击Export data即可导出xlsx或csv形式的爬取数据结果 

参考:

Web Scraper傻瓜式爬虫插件之进阶套路 - 简书 (jianshu.com)

零基础用爬虫爬取网页内容(详细步骤+原理) - 知乎 (zhihu.com)

小节:使用Web Sraper插件进行信息爬取对网页规整性要求较高,所获取的信息也因此受到了较大的局限性,但操作简单易上手。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值