某些情况下json.loads报错的问题

2 篇文章 0 订阅

这是今日头条上ajax中一个有关于图片信息的变量:

gallery: JSON.parse("{\"count\":6,\"sub_images\":[{\"url\":\"http:\\/\\/p3.pstatp.com\\/origin\\/pgc-image\\/153311418372487f65e2a82\",\"width\":690,\"url_list\":[{\"url\":\"http:\\/\\/p3.pstatp.com\\/origin\\/pgc-image\\/153311418372487f65e2a82\"}······

分析ajax并获取gallery中的图片信息,由于今日头条网站的更新,以前的分析代码不管用了,
下面是用正则获取其中的字符串,特别要注意()的表示方式,前面要加\

images_pattern = re.compile('gallery: JSON.parse\("(.*?)"\)',re.S)
result = re.search(images_pattern,html)
    if result:
        str = re.sub(r'(\\)', '', result.group(1))
        data = json.loads(str)
        if data and 'sub_images' in data.keys():
            sub_images = data.get('sub_images')
            images = [item.get('url') for item in sub_images]
            return {
                'title':title,
                'url':url,
                'images':images
            }

今日头条如今加了一些简单的反扒机制,比以前直接给出来要麻烦的,所以上面有re.sub将字符串中的所以\替换掉,这样格式正确了之后才能用把字符串格式的转化为json,才可以使用json.loads,进而可以获取图片的打开链接,进而进行下一步爬取。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值