1、chompjs
在爬取某个网站数据时,会获取到一些不规整的json数据,例如key的引号、多次进行符号转义、null和undefined导致的问题。我们可以将json数据进行处理再进行json.loads()转换为python中的字典,但是数据量太大时候适配比较麻烦。
直接使用json.loads会得到如下的报错
json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes: line 1 column 2 (char 1)
有的人也会想到使用selenium或者execjs等这样可以执行js的模块去处理,但是没必要,可以使用chompjs模块,也是非常精简了,只有一个函数可供调用。
使用方法:
print(chompjs.parse_js_object('{img:"https://www.com",old:null,lop:undefined}'))
输出
{'img': 'https://www.com', 'old': 'null', 'lop': 'undefined'}