WebScraper网页数据爬取可视化工具使用(无需编码)

 前言

Web Scraper 是一个浏览器扩展,可以实现无需编码即可爬取网页上的数据。只需按照规则进行配置,即可实现一键爬取导出数据。

安装

进入Google应用商店安装此插件,安装步骤如下:

进入Google应用商店需要外网VPN才能访问,如果你不能进入外网。可以直接访问此链接下载:

链接:https://pan.baidu.com/s/16AZRpKSrtHu_b2OjlYhnGA 提取码:rtk7

安装后, 打开 F12开发者工具会多出一个名 Web Scraper 的面板,接下来以此作为开始。

快速上手

写个例子:提取百度首页底部几个导航按钮的文字,了解下 Web Scraper 是如何工作。

创建任务

创建任务,即创建 SiteMap(这词不常用,还是用我们熟悉的词吧,意思大致一样就行)。打开 百度首页,再打开开发者面板如下操作,其中URL可以使用特殊语法,这个后面再谈。

b0d7f7928b505140cf054e413c752ee4.png

选择内容

814c40674387447440b221236529fc3b.png

开始抓取

47d98beeeaa3febab10ba37c343375c9.png

浏览数据

抓取完肯定要确认数据是否正确,格式不正确需要重新调整选择器,浏览数据的步骤如下:

23a2fb6279806fab7ac17981134474ee.png

保存数据

确认无误后,就可以进行保存(如下)。目前只能导出 excel 或 csv 格式,json 需要充值(会员),不过也不是啥大问题,随便找个在线网站转一下就行。

4552af220ff300891ca4072fb2db6ce8.png

浏览数据

抓取完肯定要确认数据是否正确,格式不正确需要重新调整选择器,浏览数据的步骤如下:

5984c937f0dd40deb1e810253cf0a4d1.png

保存数据

确认无误后,就可以进行保存(如下)。目前只能导出 excel 或 csv 格式,json 需要充值(会员),不过也不是啥大问题,随便找个在线网站转一下就行。

22c067fd4a9a45569675020f49c19e43.png

小结

3ad5e4ba9b2c38c5c6b8957266f1fc73.png

图片选择器

抓取的URL支持特殊语法,如果页面分页体现在URL上的话还是非常有用的。如下:

b108cf37595d13804748c553e2bb84f1.png

表格选择器

提取表格数据,以 IANA的域名列表 为例,如下:

1944f739bec9c3904b09203750684bc2.png

链接选择器

提取链接名字和地址,以 百度首页 为例, 如下:

662d56bb5d95c5d6887914e97f489fd9.png

百度首页 为例, 如下:

属性选择器

提取属性值,以 百度首页 为例, 如下:

d6aadd12fae845ba7c8e5ebd85b03515.png

图片选择器

提取图片地址,以 百度首页 为例, 如下:

add1faca0f5ca8dc6698c1baec2280d5.png

元素选择器

a383cb0664a86e25ba4ea8d89c088046.png

提取表格数据,以 IANA的域名列表 为例,如下:

ea96851b459ac0e3645a0fe4c5275abf.png

元素和子选择器创建好就可以了,以下是预览到的数据:

faf11deed5aa3155aa557e9c6d91bc0f.png

链接选择器

提取链接名字和地址,以 百度首页 为例, 如下:

393776e014368ee70dd894cc746c92c0.png

元素点击选择器

777433bd831c554f3284010f94cbc680.png

分组选择器

a398dcb36ecb4401ea87cb3800ff4ee2.png

分页选择器

分页查询数据,支持多种类型,比元素滚动选择器、元素点击选择器更强大。值得注意的是,子选择器需放在分页选择器内部。以 博客园WEB分页 为例,模拟上面元素点击选择器的效果,如下:

060b4c211fe4628c7a68e32229f75fff.png

百度首页 为例, 如下:

站点地图选择器

这几个比较简单,输入 sitemap.xml 的地址即可,如下:

52bc7531dc072936ec5de168d57f4d8c.png

tips

提取元素,实际是个分组功能。例如,有个列表,每个子项都有名字、链接地址等属性,元素就是包裹这些属性的盒子,可以理解 JS 中的对象。

结语

以上本片的所有内容,你可以利用它去爬取你想要的网页数据例如:知乎、boss直聘、豆瓣等等。

  • 9
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
网页信息爬取数据化可视化是一种很常见的数据获取和处理方式,主要包括以下两个过程: 1. 网页信息爬取:通过编写爬虫程序,自动化地获取互联网上的数据爬虫程序可以模拟浏览器行为,自动化地访问网页、抓取网页内容、解析网页结构,从而获取需要的数据网页信息爬取可以用于获取各种类型的数据,例如新闻、商品信息、股票数据等。 2. 数据化可视化:通过将获取的数据进行处理和可视化,使数据更加易于理解和分析。数据化可视化可以使用各种工具和技术,例如 Excel、Python、R、Tableau、D3 等。通过数据化可视化,可以将数据呈现为各种类型的图表、地图、热力图等,从而更好地理解数据的分布、趋势和关系。 网页信息爬取数据化可视化可以应用于多种场景,例如市场调研、舆情分析、数据分析等。在进行网页信息爬取数据化可视化的过程中需要注意以下几点: 1. 合法性问题:在进行网页信息爬取时,需要遵守相关的法律法规,例如《计算机软件保护条例》、《互联网信息服务管理办法》等。在进行数据化可视化时,需要注意数据的版权和隐私问题。 2. 数据质量问题:网页信息爬取数据质量可能受到多种因素的影响,例如网页结构变化、反爬虫策略等。在进行数据化可视化时,需要进行数据清洗、去重、格式转换等处理,从而提高数据的质量和可信度。 3. 数据可视化问题:数据可视化需要根据数据的特点和分析目的选择合适的可视化方式。在进行数据可视化时,需要考虑数据的规模、数据类型、数据分布等因素,从而选择合适的图表类型和参数设置。 总之,网页信息爬取数据化可视化是一种常见的数据获取和处理方式,可以应用于多种场景。在进行这些操作时需要注意数据的合法性、质量和可视化方式,从而提高数据的价值和应用效果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

仲君Johnny

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值