WebScraper网页数据爬取可视化工具使用（无需编码）

最新推荐文章于 2024-05-20 10:03:34 发布

仲君Johnny

最新推荐文章于 2024-05-20 10:03:34 发布

阅读量1.3k

点赞数 9

文章标签：爬虫网络爬虫 web 数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lizhongjun1005/article/details/137170852

版权

前言

Web Scraper 是一个浏览器扩展，可以实现无需编码即可爬取网页上的数据。只需按照规则进行配置，即可实现一键爬取导出数据。

安装

进入Google应用商店安装此插件，安装步骤如下：

进入Google应用商店需要外网VPN才能访问，如果你不能进入外网。可以直接访问此链接下载：

链接:https://pan.baidu.com/s/16AZRpKSrtHu_b2OjlYhnGA 提取码:rtk7

安装后，打开 F12开发者工具会多出一个名 Web Scraper 的面板，接下来以此作为开始。

快速上手

写个例子：提取百度首页底部几个导航按钮的文字，了解下 Web Scraper 是如何工作。

创建任务

创建任务，即创建 SiteMap(这词不常用，还是用我们熟悉的词吧，意思大致一样就行)。打开百度首页，再打开开发者面板如下操作，其中URL可以使用特殊语法，这个后面再谈。

选择内容

开始抓取

浏览数据

抓取完肯定要确认数据是否正确，格式不正确需要重新调整选择器，浏览数据的步骤如下：

保存数据

确认无误后，就可以进行保存(如下)。目前只能导出 excel 或 csv 格式，json 需要充值(会员)，不过也不是啥大问题，随便找个在线网站转一下就行。

浏览数据

抓取完肯定要确认数据是否正确，格式不正确需要重新调整选择器，浏览数据的步骤如下：

保存数据

确认无误后，就可以进行保存(如下)。目前只能导出 excel 或 csv 格式，json 需要充值(会员)，不过也不是啥大问题，随便找个在线网站转一下就行。

小结

图片选择器

抓取的URL支持特殊语法，如果页面分页体现在URL上的话还是非常有用的。如下：

表格选择器

提取表格数据，以 IANA的域名列表为例，如下：

链接选择器

提取链接名字和地址，以百度首页为例，如下：

百度首页为例，如下：

属性选择器

提取属性值，以百度首页为例，如下：

图片选择器

提取图片地址，以百度首页为例，如下：

元素选择器

提取表格数据，以 IANA的域名列表为例，如下：

元素和子选择器创建好就可以了，以下是预览到的数据：

链接选择器

提取链接名字和地址，以百度首页为例，如下：

元素点击选择器

分组选择器

分页选择器

分页查询数据，支持多种类型，比元素滚动选择器、元素点击选择器更强大。值得注意的是，子选择器需放在分页选择器内部。以博客园WEB分页为例，模拟上面元素点击选择器的效果，如下：

百度首页为例，如下：

站点地图选择器

这几个比较简单，输入 sitemap.xml 的地址即可，如下：

tips

提取元素，实际是个分组功能。例如，有个列表，每个子项都有名字、链接地址等属性，元素就是包裹这些属性的盒子，可以理解 JS 中的对象。

结语

以上本片的所有内容，你可以利用它去爬取你想要的网页数据例如：知乎、boss直聘、豆瓣等等。

关注

9
点赞
踩
19

收藏

觉得还不错? 一键收藏
打赏
0
评论
WebScraper网页数据爬取可视化工具使用（无需编码）

本文介绍了浏览器插件Wev Scraper的基本用法和抓取页面内容示例。即使你不会编程，也能爬取爬取数据。
复制链接

扫一扫

仲君Johnny CSDN认证博客专家 CSDN认证企业博客

码龄1年

65: 原创

23万+: 周排名

3万+: 总排名

11万+: 访问

: 等级

2401: 积分

1610: 粉丝

1882: 获赞

32: 评论

1528: 收藏

私信

关注

热门文章

分类专栏

最新评论

【Python爬虫教程】进阶篇-15 app爬取mimtproxy
普通网友: 文章结构严谨有条,层次分明,读起来一点也不费劲，让人受益匪浅。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
废文xxxx
普通网友: 优质好文，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
废文xxxx
仲君Johnny: 有什么想学的东西可以提，我会考虑的
废文xxxx
仲君Johnny: 会的，这么久比较忙，更新会慢一些
废文xxxx
2301_80914859: 你好还会更新吗？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

仲君Johnny 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。