web scraper爬虫工具(简介)

web scraper 简介

  • 一、什么是web scraper
    web scraper是一款网站数据提取工具,类似于爬虫,但不需要像python爬虫那样编写代码,使用门槛较低,适用于轻度的数据爬取。web scraper主要以谷歌扩展插件的形式存在,开发者介绍的Cloud Scraper暂时没了解过。

以下是开发者给出的工具简介
Web site data extraction tool
Start web scraping in minutes. Use our free chrome extension or automate tasks with our Cloud Scraper. No software to download, no Python/php/JS needed.

  • 二、如何安装web scraper
    目前越来越多的浏览器开始适配扩展插件,但还是建议在谷歌浏览器上安装使用(需要科学上网)。在chrome网上应用店直接搜索web scraper,点击安装即可。
    扩展插件添加界面

  • 三、使用界面介绍

    • 1.首先确认浏览器是否已经安装并启用,再按F12调出开发者工具界面,此时可以看到菜单栏多了一个web scraper。
      安装web scraper后谷歌开发者工具界面
    • 2.点击进入工具详细页面
      菜单栏第一项Sitemaps主要记录已创建的sitemap(直译应该是网站预览)。第二项Sitemap主要是对现有sitemap的一些操作,如创建爬取节点、子节点以及执行爬取和导出任务都在这一项里进行。第三项Create new sitemap主要是新建和导入sitemap用。
      在这里插入图片描述
  • 四、简单爬取下百度首页信息

    • 1.爬取导航界面的网站名及地址。该工具有自动选择元素的功能,点击Select再在网页中选中想要获取的元素。由于采用树状结构更有利于数据的整理,所以我们先获取导航页面的所有元素,然后再依次获取我们想要的网站名及地址。
      在这里插入图片描述
    • 2.大致的爬取结构如下图。
      导航界面爬取结构
      • 2.1 所有导航卡片爬取(由于进入页面时不会加载所有导航网站,所以type需要选取Element click,工具会模拟用户点击加载按钮来加载完全部界面)
        guide爬取
      • 2.2 网站名爬取(注意此处不要勾选Multiple,因为前一级guide已经勾选Multiple,每一个导航卡片中只用爬取一次网站名,不然会因为数据条目不一致导致爬取失败)
        name爬取
      • 2.3 网站链接爬取
        link爬取
        所有爬取节点的Selector可以自己根据网页结构输入,也可以点击Select后再在网页中想要爬取的元素自动生成。
    • 3.实施爬取并导出数据表格
      Scrape执行
      数据表格
      到这一次简单的爬取就结束了。
  • 五、总结
    web scraper这款工具可以不用编写具体的爬虫代码实现数据爬取,但大体的爬取思路都是一样的。在一些简单的页面爬取上可以很直观的进行爬取,数据预览也十分方便。对于一些比较复杂的数据爬取上,对网页结构进行一定的分析后也能实现爬取。熟练使用后,可以十分便捷的实现直接在浏览器上爬取数据。

  • 13
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值