爬虫中遇到的JSON问题

最新推荐文章于 2024-04-30 13:45:35 发布

渡边君

最新推荐文章于 2024-04-30 13:45:35 发布

阅读量1.6k

点赞数

本文链接：https://blog.csdn.net/baidu_41902768/article/details/103941480

版权

本文讲述了在爬虫过程中遇到的JSON解析问题，主要涉及到json.loads和json.dumps方法。当JSON字符串中存在转义字符，如``在不恰当位置时，会导致解析错误。为了解决这个问题，作者提出了使用正则表达式来处理这些特殊字符，从而避免json.loads的错误。

摘要由CSDN通过智能技术生成

帮朋友爬一个政府公告文件，整个流程挺简单的，但下了两个文件之后在第三个文件卡住了。经过排查原因，发现是在调用 json 库中的方法 loads 时发生了错误。简单描述一下流程，首先，爬取一个链接可以得到一个 response，response 中的 text 属性也就是我们想要提取的内容，类型是一个字符串，同时也是一个 json 文件。何谓 python 中的 json 对象呢？我的理解是主要以花括号 {}、中括号 []、冒号: 和逗号来表示的一种格式，本质上就是键值对。例如我爬取得到的 response.text 经过 print 如下

{"Succeed":"1","Message":"成功","Data":{"pos":0,"total_count":3743,"rows":[{"id":"1","data":["江门市新会区会城梅江南路22号海棠公馆1座","<a href=\"/public/web/ysxm_JM?ysxmid=635FD571C35C412E85E67BC85A854B73&jgid=d111693f-6943-4f13-858a-cd61ff9184fd\" target=\"_blank\">海棠公馆</a>","<a href=\"/public/web/Yszxx?ysxmid=635FD571C35C412E85E67BC85A854B73&jgid=d111693f-6943-4f13-858a-cd61ff9184fd\" target=\"_blank\">新会预许字第2020009号</a>","<a href=\"/public/web/KfxmList?kfsid=4407050408&jgid=d111693f-6943-4f13-858a-cd61ff9184fd\" target=\"_blank\">江门市美溢房地产开发有限公司</a>","枢纽新城今洲路南侧、规划梅江南路东侧地块","新会区"]},{"id":"2","data":["新会区大泽碧桂园凤凰花园33座","<a href=\"/public/web/ysxm_JM?ysxmid=2CF13AC191BF4984B6D4C94A23CBC576&jgid=d111693f-6943-4f13-858a-cd61ff9184fd\" target=\"_blank\">大泽碧桂园凤凰花园</a>","<a href=\"/public/web/Yszxx?ysxmid=2CF13AC191BF4984B6D4C94A23CBC576&jgid=d111693f-6943-4f13-858a-cd61ff9184fd\" target=\"_blank\">新会预许字第2020008号</a>","<a href=\"/public/web/KfxmList?kfsid=440705-133574&jgid=d111693f-6943-4f13-858a-cd61ff9184fd\" target=\"_blank\">江门市新会区粤航投资有限公司</a>","大泽碧桂园凤凰花园","新会区"]},{"id":"3","data":["江门市新会区会城潮江路20号御锦世家花园3座","<a href=\"/public/web/ysxm_