理论上来说,爬取网页只需读取网页的编码,然后读入、保存,不应该有乱码问题。然而我多次尝试仍然失败。在网上都搜不到相关内容,很抓狂(这也是为什么写这篇东西)。
捣鼓了很久之后发现原因很简单,因为VSCode默认用utf-8打开文件。所以GB2312等格式的网页爬下来、以GB2312格式保存,然后被VSCode用utf-8打开当然会显示乱码。
建议遇到同样情况的改用记事本之类的打开文件看看是不是正常的。
理论上来说,爬取网页只需读取网页的编码,然后读入、保存,不应该有乱码问题。然而我多次尝试仍然失败。在网上都搜不到相关内容,很抓狂(这也是为什么写这篇东西)。
捣鼓了很久之后发现原因很简单,因为VSCode默认用utf-8打开文件。所以GB2312等格式的网页爬下来、以GB2312格式保存,然后被VSCode用utf-8打开当然会显示乱码。
建议遇到同样情况的改用记事本之类的打开文件看看是不是正常的。