python解析复杂json_浅析python解析不规则json字符串

最近在开发爬虫过程中,遇到一些python在解析不规则json字符串时出现解析不了的情况,特些记录一下:

正常情况下我们取到的json字符串应该都是像下面这种情况,用"包起来的

{"name":"test"}

而在爬取网站中会遇到很多不规则的json字符串,这些json字符串在javascript之中是可以正常解析的,但是在python中就会抛出ValueError异常。对于这种不是用双引号包起来的不规则json字符串可以使用一个第三方包demjson来解决,安装命令如下:

pip install demjson

安装好后直接在代码中调用就可以直接把不规则的json字符串转化为标准python字典

import demjson

str = '{name: "test"}'

print demjson.decode(str)

第二种情况是得到的json字符串是经过unicode转码的,这时拿到的json字符串会像下面这样:

{name:\u0027test\u0027}

这种解决办法可以使用字符串替换函数把\u0027转化为",再使用demjson.decode就可以转化成功。

import demjson

str = '{name: \u0027test\u0027}'

str = str.replace('\u0027', '\"')

print demjson.decode(str)

第三种情况是拿回来的json字符串的键是有"的,但是这时的json字符串是经过特殊字符转义的,如下

{\"name\":\"test\"}

这种情况在控制台是能够直接处理,但是在我的scrpay程序中会遇到一些问题,我的解决思路是把字符串转回去再处理

import demjson

str = {\"name\":\"test\"}

print demjson.decode(str.decode("string_escape"))

以上就是我遇到的这三种问题的处理思路供大家参考。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值