我的爬虫学习
requests爬取网页遇到json
当你用post去获取一个网页的源码,有时候会遇到post得到的response是一堆乱码,如下
{"controls":[],"custom":"{\"RowCount\": 20,\"Table\" :[{\"categorynum\":\"004001001001\",\"lbname\":\"\u5DE5\u7A0B\u5EFA\u8BBE\",\"infoid\":\"b803f0d7-2d7c-47ad-9f74-
6e88c5b6c00c\",\"titles\":\"\u4E34\u6D2E\u53BF\u5357\u82D1\u5C0F\u533A\u897F\u4FA7\u68DA\u6237\u533A\u6539\u9020\u9879\u76EE\",\"title\":\"<font color='#0066FF'>[\u4E34\u6D2E\u53BF]
<\\\/font>\u4E34\u6D2E\u53BF\u5357\u82D1\u5C0F\u533A\u897F\u4FA7\u68DA\u6237\u533A\u6539\u9020\u9879\u76EE<font color='#0066FF'>[\u5C1A\u672A\u62A5\u540D]<\\\/font>\",\"infodate\":\"2019-09-23\",
其实很简单 只需要把得到的content
content_json = json.loads(content)
#如果想把得到的代码再排序 可以
content_json = json.loads(content)['custom']
#这个要观察得到的代码 像这样的
{"controls":[],"custom":"
还有Table等常见的
然后再
for info in content_json
info = ......
就可以得到有规律的源码了