我在学习网络爬虫的过程中遇到一个很奇怪的问题,爬取同一个网站的不同页面(编码方式都为'gb2312')时,beautifulsoup有时候输出中文是正常的有时候是乱码。
查找资料:http://bbs.chinaunix.net/thread-4084647-1-1.html
上面说:表面上看起来从BeautifulSoup解析后得到的soup,打印出来是乱码,但是实际上其本身已经是,正确的(从原始的GB2312编码)解析(为Unicode)后的了。
之所以乱码,那是因为,打印soup时,调用的是__str__,其默认是UTF-8,所以输出到GBK的cmd中,才显示是乱码。
但实际情况却不是这样: