零代码爬虫——Web Scraper入门

简介

Web Scraper 旨在让每个人都能轻松爬取Web数据,而无需编程。
在这里插入图片描述




缺点

  1. 无法进行复杂爬取




安装

任意选择:

推荐阅读:Chrome插件安装方法




初试

  1. 百度任意搜索关键词
  2. F12 开发者工具 → Web Scraper
    在这里插入图片描述
  3. 创建站点:Create new sitemapCreate Sitemap
    在这里插入图片描述
  4. 添加选择器:Add new selector → Id 任意 → 选中 Multiple → Select → 在页面上点击爬取目标,多点几个让浮动框内容变简单 → Done selecting!Element previewData preview 预览查看是否想要的数据 → Save selector
    在这里插入图片描述
  5. 爬取内容&导出数据:Sitemap xxxScrapeStart scraping → 弹出页面等待爬取完毕 → Sitemap xxxExport data as CSV
    在这里插入图片描述




跳转

  1. 创建站点:测试商品页面
    在这里插入图片描述

  2. 一级菜单:Id 填 category-link → Type 设为 Link → 选中 Multiple
    在这里插入图片描述

  3. 二级菜单:点进子节点 → Id 填 subcategory-link → Type 设为 Link → 选中 Multiple
    在这里插入图片描述

  4. 商品链接:点进 Laptops → 点进子节点 → Add new selector → Id 填 product-link → Type 设为 Link → 选中 Multiple → Select
    在这里插入图片描述

  5. 爬取内容:任意进入一商品 → 点进子节点 → Id 填 title → Type 设为 Text → 不选 Multiple。类似添加 price
    在这里插入图片描述

  6. 查看选择器树状图:Sitemap xxx → Selector graph
    在这里插入图片描述

  7. 爬取 Scrape → 爬取过程中点 Refresh 可查看爬到的数据
    在这里插入图片描述




滚动

此方法适合滚动页面,需要AJAX加载的数据爬取。

  1. 创建站点:知乎精华帖
  2. 创建容器:Id 填 container → Type 设为 Element scroll down → 选中 Multiple → Delay 设为 2000
    控制为100条,在 Selector 后加上 :nth-of-type(-n+100)。若不设,将无限爬取直到无法再滚动。手动关闭亦可停止爬取。
    在这里插入图片描述
  3. 爬取内容:点进子节点 → Id 填 title → Type 设为 Text → 不选 Multiple。类似添加 likecomment

PS:

  • 爬完才能 Refresh 看到数据
  • 若有多层嵌套结构,可以直接用CSS选择器,不用多次构建 Element
  • 爬取标题为 null ,可将 Selector 换成 .ContentItem-title
    在这里插入图片描述




加载按钮

  1. 创建站点:商品加载页
  2. 创建点击元素:Id 填 product-wrapper → Selector 选为要爬取的对象 → Type 设为 Element click → Click selector 选为加载按钮 → Click type 选为 Click more → 选中 Multiple → Delay 设为 2000
    在这里插入图片描述
  3. 效果
    在这里插入图片描述




选择器技巧

测试商品页面

  1. S:Select,选择元素
  2. P:Parent,选择父节点元素
  3. C:Child,选择子节点元素
    在这里插入图片描述




分页

跳转分页测试页面动态加载测试页面

  • 抓取前50个网页:https://www.xxx.com/book/[1-50]
  • 间隔为25:https://www.xxx.com/book/[0-50:25]
  • 跳转分页:选择器为 Link,并设置多个启动项
  • 动态加载:选择器为 Element Click

跳转分页

跳转分页测试页面

  1. 创建分页链接:Id 填 pagination → Selector 选为页码 → Type 设为 Link → Parent Selectors 多选
    在这里插入图片描述
  2. 创建商品链接:Id 填 link → Selector 选为商品 → Type 设为 Link → Parent Selectors 多选
    在这里插入图片描述
  3. 选择器示意图,爬虫会智能对分页去重访问
    在这里插入图片描述
  4. 效果
    在这里插入图片描述



动态加载

适合分页时动态加载的页面,Url 不变,页面不会刷新

  1. 创建分页点击元素:Id 填 click-pagination → Selector 选为商品 → Type 设为 Element click → Click selector 选为页码 → Click type 为 Click once → Discard initial elements 为 Discard when click element exists → Delay 设为 2000
    在这里插入图片描述
  2. 创建商品链接:点进子节点 → Id 填 link → Type 设为 link → Selector 选为商品 → 不选 Multiple
    在这里插入图片描述
  3. 效果
    在这里插入图片描述




推荐观看:Web Scraper 官方教程 #3 —— 分页处理




备注

  1. Move developer tools to the bottom of your browser to start using Web Scraper.
    把开发者工具拖长 或 点右上角三个点并置于底部
    在这里插入图片描述
  2. Web Scraper 使用 CSS选择器
    推荐阅读:CSS 选择器参考手册




参考文献

  1. Web Scraper 官网
  2. Web Scraper 文档
  3. Web Scraper 测试页面
  4. Web Scraper 官方教程 #1 —— 快速上手
  5. Web Scraper 官方教程 #2 —— 多记录提取
  6. Web Scraper 官方教程 #3 —— 分页处理
  7. 数据抓取II-进阶
  8. Web Scraper 简易教程01
  9. Web Scraper 简易教程02
  10. Web Scraper 简易教程03
  11. Web Scraper 简易教程04
  12. Web Scraper 简易教程05
  13. CSS 选择器参考手册
  • 6
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

XerCis

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值