【Web Scraper教程03】(含动画演示)Web Scraper爬虫爬取"p2p数据平台"

《Web Scraper网页爬虫教程》 是我以谷歌浏览器插件Web Scraper为爬虫工具,理论与实战结合的教程。

如果大家有爬虫需求,欢迎大家公众号联系我,我可以免费帮忙爬取数据。

关于我的更多学习笔记,欢迎您关注“武汉AI算法研习”公众号,公众号浏览此系列教程视觉效果更佳

P2P数据平台是一个聚合现今众多P2P网贷平台的综合类网站,其收录了每个网贷平台的众多信息,包括借贷余额、成交额和新闻等众多数据。通过数据平台投资者能够进行平台的横向比较,同时数据平台提供的数据也为我们的数据分析工作提供了最原始的数据。

本文以“网d天y”平台数据为例,利用Web Scraper爬取数据

 

「需求」

1、爬取全平台收录的P2P平台数据,数据包括网贷平台名称、借贷余额、成交额、当前出借人数、当前借款人数和预期净额

2、爬取最终数据以Excel存储

 

「需求分析」

1、需求1中需要爬取整个平台的所有网贷数据,并且每个网贷平台的数据项目包括6类,经过网页分析发现网站默认只是显示了前97项的数据,如果需要浏览所有数据需要点击“加载更多数据”然后显示其它数据。而需求1中所需要爬虫的数据项都包含在同一个页面,意味着降低了爬取难度。

2、需求2中最终导出Excel存储,Web Scraper默认支持导出Excel格式

 

 

「Web Scraper爬取操作」

经过需求分析,爬虫主要任务难点通过模拟我们点击“加载更多数据”进行加载所有数据,之后进行爬取相应页面数据

第一步:创建爬取站点

打开Web Scraper插件栏,点击创建create new sitemap创建爬虫站点,命名站点名称(随意)和页面地址。

 

第二步、捕获整个表格

进入_root目录,点击Add new selector新建一个选择器。对选择器中的元素进行设置,设置参数见下图。

具体参数意思后面系列教材会讲解。

 

 

第三步、捕获表格数据中每行

通过第二步的操作让Web Scraper捕获了整个表格,由于页面数据分行显示,每行代表一个P2P平台。

 

第四步、捕获每行中的数据

由于网贷平台名称、借贷余额、成交额、当前出借人数、当前借款人数和预期净额这些数据,存在每行之中,则这次进行捕获每行中的信息。

 

第五步、启动爬虫工具

点击Scraper,正式进行爬虫,Web Scraper根据定义的各个动作action打开新的浏览窗口,模拟人为点击操作进行爬取数据,这也是利用Web Scraper能够顺利规避网站反爬虫的原因。爬取完成后刷新数据显示。

 

第六步、导出Excel格式

点击工具中导出Excel格式,Excel数据和原数据进行核对,数据爬取完整正确

 

下节预告《【Web Scraper教程04】Web Scraper插件的selector理解》

 

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
好的,以下是关于使用 Python 的 web scraper 爬取二级网页的简单教程: 1. 导入必要的库 在 Python 中,我们需要使用一些第三方库来实现网页爬取。其中,最为常用的包括 requests 和 BeautifulSoup。前者用于获取网页源代码,后者用于解析 HTML 代码。 ```python import requests from bs4 import BeautifulSoup ``` 2. 获取二级网页 要获取二级网页的内容,我们首先需要获取主网页的链接,然后使用 requests 库获取其源代码,进而找到所有二级网页的链接。我们可以使用 BeautifulSoup 库解析 HTML 代码,并使用 find_all 方法找到所有 a 标签中的 href 属性,即所有链接。 ```python # 获取主网页的链接 url = "https://example.com" response = requests.get(url) soup = BeautifulSoup(response.content, "html.parser") # 获取所有二级网页的链接 links = [] for link in soup.find_all("a"): href = link.get("href") if href.startswith("https://example.com/second-level"): links.append(href) ``` 这里我们假设所有二级链接都以 "https://example.com/second-level" 开头。 3. 爬取二级网页的内容 现在我们已经得到了所有二级网页的链接,接下来就可以依次爬取它们的内容了。和获取主网页的源代码类似,我们可以使用 requests 库获取每个二级网页的源代码,然后使用 BeautifulSoup 库解析 HTML 代码,找到我们需要的内容。 ```python # 爬取所有二级网页的内容 for link in links: response = requests.get(link) soup = BeautifulSoup(response.content, "html.parser") # 这里可以根据需要找到需要的内容 ... ``` 这里需要注意的是,每个二级网页的 HTML 代码可能会有所不同。因此,我们需要根据实际情况找到我们需要的内容。 4. 完整代码 以下是一个完整的示例程序,用于爬取某个网站中以 "https://example.com/second-level" 开头的所有二级网页的标题和正文: ```python import requests from bs4 import BeautifulSoup # 获取主网页的链接 url = "https://example.com" response = requests.get(url) soup = BeautifulSoup(response.content, "html.parser") # 获取所有二级网页的链接 links = [] for link in soup.find_all("a"): href = link.get("href") if href.startswith("https://example.com/second-level"): links.append(href) # 爬取所有二级网页的内容 for link in links: response = requests.get(link) soup = BeautifulSoup(response.content, "html.parser") # 找到标题和正文 title = soup.find("h1").text content = soup.find("div", class_="content").text # 输出结果 print("Title:", title) print("Content:", content) ``` 这段代码可以根据实际需要进行修改。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值