- 博客(1)
- 收藏
- 关注
原创 静态页面下,页面编码为gb2312,但是源代码中出现大量/uxxxx的解决方法
昨天爬一个网站的时候发现该网站charset为gb2312,但是网页下方出现大量的/uXXX类似的字符串而且里面还穿插了很多的\n\r类似的字符串,一直搜也没搜到,后来发现是因为该网站的那部分使用了json保存数据。 所以直接爬下json的部分,然后用pathon的json块处理json就可以了!
2016-08-03 15:34:03 557
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人