简介
Web Scraper 旨在让每个人都能轻松爬取Web数据,而无需编程。
缺点
- 无法进行复杂爬取
安装
任意选择:
推荐阅读:Chrome插件安装方法
初试
- 百度任意搜索关键词
- F12 开发者工具 → Web Scraper
- 创建站点:Create new sitemap → Create Sitemap
- 添加选择器:Add new selector → Id 任意 → 选中 Multiple → Select → 在页面上点击爬取目标,多点几个让浮动框内容变简单 → Done selecting! → Element preview 或 Data preview 预览查看是否想要的数据 → Save selector
- 爬取内容&导出数据:Sitemap xxx → Scrape → Start scraping → 弹出页面等待爬取完毕 → Sitemap xxx → Export data as CSV
跳转
-
创建站点:测试商品页面
-
一级菜单:Id 填
category-link
→ Type 设为Link
→ 选中 Multiple
-
二级菜单:点进子节点 → Id 填
subcategory-link
→ Type 设为Link
→ 选中 Multiple
-
商品链接:点进 Laptops → 点进子节点 → Add new selector → Id 填
product-link
→ Type 设为Link
→ 选中 Multiple → Select
-
爬取内容:任意进入一商品 → 点进子节点 → Id 填
title
→ Type 设为Text
→ 不选 Multiple。类似添加price
-
查看选择器树状图:Sitemap xxx → Selector graph
-
爬取 Scrape → 爬取过程中点 Refresh 可查看爬到的数据
滚动
此方法适合滚动页面,需要AJAX加载的数据爬取。
- 创建站点:知乎精华帖
- 创建容器:Id 填
container
→ Type 设为Element scroll down
→ 选中 Multiple → Delay 设为 2000
控制为100条,在 Selector 后加上:nth-of-type(-n+100)
。若不设,将无限爬取直到无法再滚动。手动关闭亦可停止爬取。
- 爬取内容:点进子节点 → Id 填
title
→ Type 设为Text
→ 不选 Multiple。类似添加like
、comment
等
PS:
- 爬完才能 Refresh 看到数据
- 若有多层嵌套结构,可以直接用CSS选择器,不用多次构建 Element
- 爬取标题为 null ,可将 Selector 换成
.ContentItem-title
加载按钮
- 创建站点:商品加载页
- 创建点击元素:Id 填
product-wrapper
→ Selector 选为要爬取的对象 → Type 设为Element click
→ Click selector 选为加载按钮 → Click type 选为 Click more → 选中 Multiple → Delay 设为 2000
- 效果
选择器技巧
- S:Select,选择元素
- P:Parent,选择父节点元素
- C:Child,选择子节点元素
分页
- 抓取前50个网页:
https://www.xxx.com/book/[1-50]
- 间隔为25:
https://www.xxx.com/book/[0-50:25]
- 跳转分页:选择器为 Link,并设置多个启动项
- 动态加载:选择器为 Element Click
跳转分页
- 创建分页链接:Id 填
pagination
→ Selector 选为页码 → Type 设为Link
→ Parent Selectors 多选
- 创建商品链接:Id 填
link
→ Selector 选为商品 → Type 设为Link
→ Parent Selectors 多选
- 选择器示意图,爬虫会智能对分页去重访问
- 效果
动态加载
适合分页时动态加载的页面,Url 不变,页面不会刷新
- 创建分页点击元素:Id 填
click-pagination
→ Selector 选为商品 → Type 设为Element click
→ Click selector 选为页码 → Click type 为 Click once → Discard initial elements 为 Discard when click element exists → Delay 设为 2000
- 创建商品链接:点进子节点 → Id 填
link
→ Type 设为link
→ Selector 选为商品 → 不选 Multiple
- 效果
推荐观看:Web Scraper 官方教程 #3 —— 分页处理
备注
- Move developer tools to the bottom of your browser to start using Web Scraper.
把开发者工具拖长 或 点右上角三个点并置于底部
- Web Scraper 使用 CSS选择器
推荐阅读:CSS 选择器参考手册