爬虫项目中,有网页是使用 gb2312 编码的,在将网页内容转化为 UTF-8 后发现有些中文乱码了,经过对比得知,这些乱码实际上是繁体中文。
gb2312 只能表示简体中文。如果将 gb2312 的字体串转化为 UTF-8 的字符串,繁体中文是会乱码的。解决方案是先将 gb2312 转化为 GBK 编码,再转化为 UTF-8 编码。
GBK 是 gb2312 的超集,它兼容 gb2312 编码,同时还包括繁体中文编码。
爬虫项目中,有网页是使用 gb2312 编码的,在将网页内容转化为 UTF-8 后发现有些中文乱码了,经过对比得知,这些乱码实际上是繁体中文。
gb2312 只能表示简体中文。如果将 gb2312 的字体串转化为 UTF-8 的字符串,繁体中文是会乱码的。解决方案是先将 gb2312 转化为 GBK 编码,再转化为 UTF-8 编码。
GBK 是 gb2312 的超集,它兼容 gb2312 编码,同时还包括繁体中文编码。