【谷歌插件爬虫实战】零基础不会代码想学爬虫?不用编写代码的图形界面化爬虫Web Scraper参上!——基于Google的扩展应用程序插件Web Scraper爬取B站全站榜TOP100

本文介绍了如何使用Chrome插件Web Scraper无需编程知识爬取B站全站榜TOP100的数据,包括视频的排名、名称、观看数等。通过创建选择器、数据预览和导出CSV,实现数据采集。文章还提到了Web Scraper的安装、操作方法以及注意事项。
摘要由CSDN通过智能技术生成

        在博主通过Python相继学习了爬虫基础、两个基本库(urllib库、requests库)、三大解析库(XPath库、Beautiful Soup库、pyquery库)以及Selenium库后,通过测试谷歌插件Web Scraper进行网页爬取,发现这个小插件入门及其简单。因此,博主学了十分钟后当机立断爬取了Bilibili数据进行测试,并作此博客进行记录。



Web Scraper是什么?

        Web Scraper是一个Chrome浏览器插件,用来批量自动化地采集网页上的数据。
        Web Scraper相当于对爬虫进行了封装、是一个程序封装的工具,哪怕是零基础、不懂计算机的人也能通过Web Scraper爬取所能看到的网页数据。
        但是,作为一个小工具,自然有着它的局限性。Web scraper不适合下载大量图片,并且暂时只支持导出excel格式,它并不能够像代码编写爬虫那样灵活方便。


Web Scraper安装攻略

        Web Scraper作为Chrome浏览器插件,一般可在谷歌应用商店进行安装。若渠道下载可联系博主,根据感兴趣的朋友人数博主会将Web Scraper的.crx插件打包发送至评论区。具体的crx插件安装方法可参考博主的另一篇博文:玩转Chrome插件?来康康这篇《Chrome扩展程序crx插件的导出与安装通用方法步骤》吧!

Web Scraper爬取Bilibili全站榜TOP100实战演示

一、全站榜TOP100的爬取

        1.右键单击bilibili全站榜TOP100页面,选择检查,调出来开发者工具。点击Web Scraper,选择Create new sitemap下拉菜单中的Create Sitemap。(如果有Sitemap Json可以点击Import Sitemap直接导入Sitemap Json模板)
1.png

        2.输入Sitemap name(项目名称)和Start URL(网页链接URL),点击Create Sitemap创建新项目。(本次实战中的Start URL即网页链接不需要转跳,如果有分页需要考虑到换页问题)

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值