爬虫中遇到的JSON问题

本文讲述了在爬虫过程中遇到的JSON解析问题,主要涉及到json.loads和json.dumps方法。当JSON字符串中存在转义字符,如``在不恰当位置时,会导致解析错误。为了解决这个问题,作者提出了使用正则表达式来处理这些特殊字符,从而避免json.loads的错误。
摘要由CSDN通过智能技术生成

        帮朋友爬一个政府公告文件,整个流程挺简单的,但下了两个文件之后在第三个文件卡住了。经过排查原因,发现是在调用 json 库中的方法 loads 时发生了错误。简单描述一下流程,首先,爬取一个链接可以得到一个 response,response 中的 text 属性也就是我们想要提取的内容,类型是一个字符串,同时也是一个 json 文件。何谓 python 中的 json 对象呢?我的理解是主要以花括号 {}、中括号 []、冒号: 和逗号来表示的一种格式,本质上就是键值对。例如我爬取得到的 response.text 经过 print 如下

{"Succeed":"1","Message":"成功","Data":{"pos":0,"total_count":3743,"rows":[{"id":"1","data":["江门市新会区会城梅江南路22号海棠公馆1座","<a href=\"/public/web/ysxm_JM?ysxmid=635FD571C35C412E85E67BC85A854B73&jgid=d111693f-6943-4f13-858a-cd61ff9184fd\" target=\"_blank\">海棠公馆</a>","<a href=\"/public/web/Yszxx?ysxmid=635FD571C35C412E85E67BC85A854B73&jgid=d111693f-6943-4f13-858a-cd61ff9184fd\" target=\"_blank\">新会预许字第2020009号</a>","<a href=\"/public/web/KfxmList?kfsid=4407050408&jgid=d111693f-6943-4f13-858a-cd61ff9184fd\" target=\"_blank\">江门市美溢房地产开发有限公司</a>","枢纽新城今洲路南侧、规划梅江南路东侧地块","新会区"]},{"id":"2","data":["新会区大泽碧桂园凤凰花园33座","<a href=\"/public/web/ysxm_JM?ysxmid=2CF13AC191BF4984B6D4C94A23CBC576&jgid=d111693f-6943-4f13-858a-cd61ff9184fd\" target=\"_blank\">大泽碧桂园凤凰花园</a>","<a href=\"/public/web/Yszxx?ysxmid=2CF13AC191BF4984B6D4C94A23CBC576&jgid=d111693f-6943-4f13-858a-cd61ff9184fd\" target=\"_blank\">新会预许字第2020008号</a>","<a href=\"/public/web/KfxmList?kfsid=440705-133574&jgid=d111693f-6943-4f13-858a-cd61ff9184fd\" target=\"_blank\">江门市新会区粤航投资有限公司</a>","大泽碧桂园凤凰花园","新会区"]},{"id":"3","data":["江门市新会区会城潮江路20号御锦世家花园3座","<a href=\"/public/web/ysxm_
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值