帮朋友爬一个政府公告文件,整个流程挺简单的,但下了两个文件之后在第三个文件卡住了。经过排查原因,发现是在调用 json 库中的方法 loads 时发生了错误。简单描述一下流程,首先,爬取一个链接可以得到一个 response,response 中的 text 属性也就是我们想要提取的内容,类型是一个字符串,同时也是一个 json 文件。何谓 python 中的 json 对象呢?我的理解是主要以花括号 {}、中括号 []、冒号: 和逗号来表示的一种格式,本质上就是键值对。例如我爬取得到的 response.text 经过 print 如下
{"Succeed":"1","Message":"成功","Data":{"pos":0,"total_count":3743,"rows":[{"id":"1","data":["江门市新会区会城梅江南路22号海棠公馆1座","<a href=\"/public/web/ysxm_JM?ysxmid=635FD571C35C412E85E67BC85A854B73&jgid=d111693f-6943-4f13-858a-cd61ff9184fd\" target=\"_blank\">海棠公馆</a>","<a href=\"/public/web/Yszxx?ysxmid=635FD571C35C412E85E67BC85A854B73&jgid=d111693f-6943-4f13-858a-cd61ff9184fd\" target=\"_blank\">新会预许字第2020009号</a>","<a href=\"/public/web/KfxmList?kfsid=4407050408&jgid=d111693f-6943-4f13-858a-cd61ff9184fd\" target=\"_blank\">江门市美溢房地产开发有限公司</a>","枢纽新城今洲路南侧、规划梅江南路东侧地块","新会区"]},{"id":"2","data":["新会区大泽碧桂园凤凰花园33座","<a href=\"/public/web/ysxm_JM?ysxmid=2CF13AC191BF4984B6D4C94A23CBC576&jgid=d111693f-6943-4f13-858a-cd61ff9184fd\" target=\"_blank\">大泽碧桂园凤凰花园</a>","<a href=\"/public/web/Yszxx?ysxmid=2CF13AC191BF4984B6D4C94A23CBC576&jgid=d111693f-6943-4f13-858a-cd61ff9184fd\" target=\"_blank\">新会预许字第2020008号</a>","<a href=\"/public/web/KfxmList?kfsid=440705-133574&jgid=d111693f-6943-4f13-858a-cd61ff9184fd\" target=\"_blank\">江门市新会区粤航投资有限公司</a>","大泽碧桂园凤凰花园","新会区"]},{"id":"3","data":["江门市新会区会城潮江路20号御锦世家花园3座","<a href=\"/public/web/ysxm_