python 爬虫 json 处理_爬虫项目中涉及Json数据的处理

在执行爬虫项目的过程中,有时返回的不是一个html页面而是json格式数据,此时对数据的解析非常重要。

(一).Json格式数据的爬取

采用Python爬取数据可以采用Scrapy或者采用urllib,requests等两种方法,显然在这里采用第二种方式更为简单。

步骤如下:

1、由于有分页的情况,因此首先构造带分页的url地址。

urlbase ="https://www.we.com/lend/loanList!json.action?pageIndex="

urlList = []

#拼接要爬取的地址

fori inrange(1,52):

url= urlbase +str(i)+"&_=1489560949549"urlList.append( url )

#循环抓取列表页信息

2、采用request对以上的url进行爬取

importrequests

content=requests.get(url,headers=headers).content

在爬取的过程中,考虑到需要模拟真实的用户,因此需要添加cookie或者header参数。

(二).对爬取的json格式数据的解析

至此,数据已经爬取下来,存放在contend里面,但是如何提出里面的关键数据非常重要。

为了能在浏览器中方便的浏览Json格式的数据,建议在chrome中添加一个扩展程序JSONView,使得其Json格式的数据能够结构化的显示。比如人人贷的数据显示如下。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值