python 爬虫 json 处理_爬虫项目中涉及Json数据的处理

最新推荐文章于 2024-05-07 06:54:59 发布

weixin_39676930

最新推荐文章于 2024-05-07 06:54:59 发布

阅读量2.3k

点赞数 1

文章标签： python 爬虫 json 处理

在执行爬虫项目的过程中，有时返回的不是一个html页面而是json格式数据，此时对数据的解析非常重要。

(一).Json格式数据的爬取

采用Python爬取数据可以采用Scrapy或者采用urllib,requests等两种方法，显然在这里采用第二种方式更为简单。

步骤如下：

1、由于有分页的情况，因此首先构造带分页的url地址。

urlbase ="https://www.we.com/lend/loanList!json.action?pageIndex="

urlList = []

#拼接要爬取的地址

fori inrange(1,52):

url= urlbase +str(i)+"&_=1489560949549"urlList.append( url )

#循环抓取列表页信息

2、采用request对以上的url进行爬取

importrequests

content=requests.get(url,headers=headers).content

在爬取的过程中，考虑到需要模拟真实的用户，因此需要添加cookie或者header参数。

（二）.对爬取的json格式数据的解析

至此，数据已经爬取下来，存放在contend里面，但是如何提出里面的关键数据非常重要。

为了能在浏览器中方便的浏览Json格式的数据，建议在chrome中添加一个扩展程序JSONView，使得其Json格式的数据能够结构化的显示。比如人人贷的数据显示如下。

最低0.47元/天解锁文章

weixin_39676930

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python 爬虫 json 处理_爬虫项目中涉及Json数据的处理

在执行爬虫项目的过程中，有时返回的不是一个html页面而是json格式数据，此时对数据的解析非常重要。(一).Json格式数据的爬取采用Python爬取数据可以采用Scrapy或者采用urllib,requests等两种方法，显然在这里采用第二种方式更为简单。步骤如下：1、由于有分页的情况，因此首先构造带分页的url地址。urlbase ="https://www.we.com/lend/loan...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。