贷款的数据爬取

最新推荐文章于 2024-02-24 20:12:49 发布

apple_54353562

最新推荐文章于 2024-02-24 20:12:49 发布

阅读量3.1k

点赞数 4

文章标签： python 爬虫开发语言

原文链接：https://mp.csdn.net/mp_blog/creation/editor/121618473

版权

本文详细介绍了如何使用Python爬虫抓取贷款网站的散标投资数据。通过分析网络请求，发现数据以JSON格式存在于特定URL中，通过循环遍历不同页面获取所有数据。同时，还讲解了如何获取并利用Cookie来抓取借贷人的详细信息。

摘要由CSDN通过智能技术生成

（一）首先分析"散标投资"这一个模块，共有51个页面
进入首页，调用360浏览器的F12（界面如下）选择Network->XHR

后在上图中左侧点击到第2个页面，右侧那一栏会弹出3个事件（对其中Method为GET的那一个事件进行分析）

点击Header，对General->Requesl URL, 和Request Headers->User-Agent 进行分析（后文中会用到）

仔细观察Request URL:http://www.we.com/lend/loanList!json.action?pageIndex=2&_=1474379219318，你会发现数据是Json格式，查看下一页，发现也是如此，不同页面的数据格式是相同的。对此，我们的抓取思路就是：获取网页源代码，从源代码中提取数据。
数据来自于类似这样的地址：http://www.we.com/lend/loanList!json.action?pageIndex=2&_=1457395836611,删除&_=1457395836611后的链接依然有效，打开链接发现是json格式的数据，而且数据就是当前页面的数据。至此，我们就找到了真正的数据来源
以下就是爬取"散标列表"数据的代码（Python 3.5.2 |Anaconda 4.0.0 (64-bit)，低版本好像不能解析utf-8）

要想配置高版本见http://www.cnblogs.com/Yiutto/p/5631930.html
（页面总共51个，可自己写个循环语句，但循环过程中可能出错，我自己就是一个个页面爬取的，然后再把51个页面的数据loan整合）