在博主通过Python相继学习了爬虫基础、两个基本库(urllib库、requests库)、三大解析库(XPath库、Beautiful Soup库、pyquery库)以及Selenium库后,通过测试谷歌插件Web Scraper进行网页爬取,发现这个小插件入门及其简单。因此,博主学了十分钟后当机立断爬取了Bilibili数据进行测试,并作此博客进行记录。
目录
Web Scraper是什么?
Web Scraper是一个Chrome浏览器插件,用来批量自动化地采集网页上的数据。
Web Scraper相当于对爬虫进行了封装、是一个程序封装的工具,哪怕是零基础、不懂计算机的人也能通过Web Scraper爬取所能看到的网页数据。
但是,作为一个小工具,自然有着它的局限性。Web scraper不适合下载大量图片,并且暂时只支持导出excel格式,它并不能够像代码编写爬虫那样灵活方便。
Web Scraper安装攻略
Web Scraper作为Chrome浏览器插件,一般可在谷歌应用商店进行安装。若渠道下载可联系博主,根据感兴趣的朋友人数博主会将Web Scraper的.crx插件打包发送至评论区。具体的crx插件安装方法可参考博主的另一篇博文:玩转Chrome插件?来康康这篇《Chrome扩展程序crx插件的导出与安装通用方法步骤》吧!
Web Scraper爬取Bilibili全站榜TOP100实战演示
一、全站榜TOP100的爬取
1.右键单击bilibili全站榜TOP100页面,选择检查,调出来开发者工具。点击Web Scraper,选择Create new sitemap下拉菜单中的Create Sitemap。(如果有Sitemap Json可以点击Import Sitemap直接导入Sitemap Json模板)
2.输入Sitemap name(项目名称)和Start URL(网页链接URL),点击Create Sitemap创建新项目。(本次实战中的Start URL即网页链接不需要转跳,如果有分页需要考虑到换页问题)