【Web Scraper教程03】(含动画演示)Web Scraper爬虫爬取"p2p数据平台"

最新推荐文章于 2024-05-20 10:03:34 发布

码农的科研笔记

最新推荐文章于 2024-05-20 10:03:34 发布

阅读量1.6k

点赞数

分类专栏： Web Scraper教程 Web Scraper网页爬虫教程文章标签：数据爬虫 Web Scraper 爬虫教程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36931982/article/details/91413577

版权

Web Scraper教程同时被 2 个专栏收录

5 篇文章 3 订阅

订阅专栏

Web Scraper网页爬虫教程

5 篇文章 3 订阅

订阅专栏

《Web Scraper网页爬虫教程》 是我以谷歌浏览器插件Web Scraper为爬虫工具，理论与实战结合的教程。

如果大家有爬虫需求，欢迎大家公众号联系我，我可以免费帮忙爬取数据。

关于我的更多学习笔记，欢迎您关注“武汉AI算法研习”公众号，公众号浏览此系列教程视觉效果更佳！

P2P数据平台是一个聚合现今众多P2P网贷平台的综合类网站，其收录了每个网贷平台的众多信息，包括借贷余额、成交额和新闻等众多数据。通过数据平台投资者能够进行平台的横向比较，同时数据平台提供的数据也为我们的数据分析工作提供了最原始的数据。

本文以“网d天y”平台数据为例，利用Web Scraper爬取数据

「需求」

1、爬取全平台收录的P2P平台数据，数据包括网贷平台名称、借贷余额、成交额、当前出借人数、当前借款人数和预期净额

2、爬取最终数据以Excel存储

「需求分析」

1、需求1中需要爬取整个平台的所有网贷数据，并且每个网贷平台的数据项目包括6类，经过网页分析发现网站默认只是显示了前97项的数据，如果需要浏览所有数据需要点击“加载更多数据”然后显示其它数据。而需求1中所需要爬虫的数据项都包含在同一个页面，意味着降低了爬取难度。

2、需求2中最终导出Excel存储，Web Scraper默认支持导出Excel格式

「Web Scraper爬取操作」

经过需求分析，爬虫主要任务难点通过模拟我们点击“加载更多数据”进行加载所有数据，之后进行爬取相应页面数据。

第一步：创建爬取站点

打开Web Scraper插件栏，点击创建create new sitemap创建爬虫站点，命名站点名称（随意）和页面地址。

第二步、捕获整个表格

进入_root目录，点击Add new selector新建一个选择器。对选择器中的元素进行设置，设置参数见下图。

具体参数意思后面系列教材会讲解。

第三步、捕获表格数据中每行

通过第二步的操作让Web Scraper捕获了整个表格，由于页面数据分行显示，每行代表一个P2P平台。

第四步、捕获每行中的数据

由于网贷平台名称、借贷余额、成交额、当前出借人数、当前借款人数和预期净额这些数据，存在每行之中，则这次进行捕获每行中的信息。

第五步、启动爬虫工具

点击Scraper，正式进行爬虫，Web Scraper根据定义的各个动作action打开新的浏览窗口，模拟人为点击操作进行爬取数据，这也是利用Web Scraper能够顺利规避网站反爬虫的原因。爬取完成后刷新数据显示。

第六步、导出Excel格式

点击工具中导出Excel格式，Excel数据和原数据进行核对，数据爬取完整正确

下节预告《【Web Scraper教程04】Web Scraper插件的selector理解》

码农的科研笔记

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
【Web Scraper教程03】(含动画演示)Web Scraper爬虫爬取"p2p数据平台"

《Web Scraper网页爬虫教程》是我以谷歌浏览器插件Web Scraper为爬虫工具，理论与实战结合的教程。如果大家有爬虫需求，欢迎大家公众号联系我，我可以免费帮忙爬取数据。关于我的更多学习笔记，欢迎您关注“武汉AI算法研习”公众号，公众号浏览此系列教程视觉效果更佳！P2P数据平台是一个聚合现今众多P2P网贷平台的综合类网站，其收录了每个网贷平台的众多信息，包括借贷余额...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。