零代码爬虫——Web Scraper入门

最新推荐文章于 2025-02-23 05:58:32 发布

XerCis

最新推荐文章于 2025-02-23 05:58:32 发布

阅读量2.6k

点赞数 6

分类专栏：其他文章标签：爬虫

本文链接：https://blog.csdn.net/lly1122334/article/details/107780518

版权

68 篇文章

订阅专栏

简介

Web Scraper 旨在让每个人都能轻松爬取Web数据，而无需编程。
在这里插入图片描述

任意选择：

百度任意搜索关键词
F12 开发者工具 → Web Scraper
创建站点：Create new sitemap → Create Sitemap
添加选择器：Add new selector → Id 任意 → 选中 Multiple → Select → 在页面上点击爬取目标，多点几个让浮动框内容变简单 → Done selecting! → Element preview 或 Data preview 预览查看是否想要的数据 → Save selector
爬取内容&导出数据：Sitemap xxx → Scrape → Start scraping → 弹出页面等待爬取完毕 → Sitemap xxx → Export data as CSV

创建站点：测试商品页面
一级菜单：Id 填 category-link → Type 设为 Link → 选中 Multiple
二级菜单：点进子节点 → Id 填 subcategory-link → Type 设为 Link → 选中 Multiple
商品链接：点进 Laptops → 点进子节点 → Add new selector → Id 填 product-link → Type 设为 Link → 选中 Multiple → Select
爬取内容：任意进入一商品 → 点进子节点 → Id 填 title → Type 设为 Text → 不选 Multiple。类似添加 price
查看选择器树状图：Sitemap xxx → Selector graph
爬取 Scrape → 爬取过程中点 Refresh 可查看爬到的数据

此方法适合滚动页面，需要AJAX加载的数据爬取。

创建站点：知乎精华帖
创建容器：Id 填 container → Type 设为 Element scroll down → 选中 Multiple → Delay 设为 2000
控制为100条，在 Selector 后加上 :nth-of-type(-n+100)。若不设，将无限爬取直到无法再滚动。手动关闭亦可停止爬取。
爬取内容：点进子节点 → Id 填 title → Type 设为 Text → 不选 Multiple。类似添加 like、comment等

PS：

创建站点：商品加载页
创建点击元素：Id 填 product-wrapper → Selector 选为要爬取的对象 → Type 设为 Element click → Click selector 选为加载按钮 → Click type 选为 Click more → 选中 Multiple → Delay 设为 2000
效果

适合分页时动态加载的页面，Url 不变，页面不会刷新

创建分页点击元素：Id 填 click-pagination → Selector 选为商品 → Type 设为 Element click → Click selector 选为页码 → Click type 为 Click once → Discard initial elements 为 Discard when click element exists → Delay 设为 2000
创建商品链接：点进子节点 → Id 填 link → Type 设为 link → Selector 选为商品 → 不选 Multiple
效果