昨天爬一个网站的时候发现该网站charset为gb2312,但是网页下方出现大量的/uXXX类似的字符串而且里面还穿插了很多的\n\r类似的字符串,一直搜也没搜到,后来发现是因为该网站的那部分使用了json保存数据。
所以直接爬下json的部分,然后用python的json块处理json就可以了!
昨天爬一个网站的时候发现该网站charset为gb2312,但是网页下方出现大量的/uXXX类似的字符串而且里面还穿插了很多的\n\r类似的字符串,一直搜也没搜到,后来发现是因为该网站的那部分使用了json保存数据。
所以直接爬下json的部分,然后用python的json块处理json就可以了!