贷款的数据爬取

本文详细介绍了如何使用Python爬虫抓取贷款网站的散标投资数据。通过分析网络请求,发现数据以JSON格式存在于特定URL中,通过循环遍历不同页面获取所有数据。同时,还讲解了如何获取并利用Cookie来抓取借贷人的详细信息。
摘要由CSDN通过智能技术生成

(一)首先分析"散标投资"这一个模块,共有51个页面
进入首页,调用360浏览器的F12(界面如下)选择Network->XHR

 

后在上图中左侧点击到第2个页面,右侧那一栏会弹出3个事件(对其中Method为GET的那一个事件进行分析)


点击Header,对General->Requesl URL, 和Request Headers->User-Agent 进行分析(后文中会用到)

 


仔细观察Request URL:http://www.we.com/lend/loanList!json.action?pageIndex=2&_=1474379219318,你会发现数据是Json格式,查看下一页,发现也是如此,不同页面的数据格式是相同的。对此,我们的抓取思路就是:获取网页源代码,从源代码中提取数据。
数据来自于类似这样的地址:http://www.we.com/lend/loanList!json.action?pageIndex=2&_=1457395836611,删除&_=1457395836611后的链接依然有效,打开链接发现是json格式的数据,而且数据就是当前页面的数据。至此,我们就找到了真正的数据来源
以下就是爬取"散标列表"数据的代码(Python 3.5.2 |Anaconda 4.0.0 (64-bit),低版本好像不能解析utf-8)


要想配置高版本见http://www.cnblogs.com/Yiutto/p/5631930.html
(页面总共51个,可自己写个循环语句,但循环过程中可能出错,我自己就是一个个页面爬取的,然后再把51个页面的数据loan整合)


总的来说,第一步为得是给第二步做铺垫,因为第二步需要用到第一步中loans.csv中的loanId,可自行将其单独整理为一个csv文档

(二)如何获取借贷人信息
a.点击其中一栏即可进入借贷人信息


为什么看不到借贷人信息呢,首先你的搞到一个帐号登录即可见(自己随便注册一个啦)

这时只要刷新一下页面,然后找到Method为Get的事件,点击打开

记住Request Headers->Cookie, 后面代码需要用到它

c.爬取借贷人信息的源代码
    

  

qq2630828414

评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值