为什么会出现中文乱码
我们项目中有些第三方代码是GBK编码,而VSCode默认是UTF-8编码,用vscode直接打开gbk编码的文件就会出现乱码。
乱码也有如下2种情况:
-
直接在vscode内打开GKB编码的文件,中文乱码;(未做修改,可以转换回来)
-
在上一步的基础上,修改了文件,中文乱码;(已做修改,无法转换回来)
解决乱码
-
直接打开,未做修改
此时直接通过VSCode本身提供的编码转换即可直接转换过来,具体步骤如下:
-
用GBK打开
点击右下角状态栏的编码区域,选择
Reopen with Encoding
,在弹出的弹框内选择GB2312编码
转存失败重新上传取消
-
保存为UTF-8
点击右下角状态栏编码区域,选择
Save with Encoding
,在弹出的弹框内选择UTF-8编码;具体步骤可参考以下视频:
暂时无法在飞书文档外展示此内容
-
打开后做了修改
如果用vscode默认utf-8的编码方式打开GBK文件,并且做了修改,那么VSCode会强制把gbk编码的中文字符转成utf-8格式,此时将无法再转换回来,这是因为GBK中存在UTF-8不存在的二进制序列,而Unicode标准规定所有无法识别的字符全用同一个字符替代:U+FFFD,所以这个过程是不可逆的。
鉴于此,
-
在打开文件时发现乱码,
-
在git提交时发现未修改过的中文被修改
都应该暂存当前的文本,然后通过编码转换为UTF-8后再做修改。
VSCode内部有一个自动猜测编码的功能,在setting内设置允许自动猜测编码:files.autoGuessEncoding
即可。
虽然通过设置自动猜测,可以解决编码无法逆转问题,然而既然是猜测就有可能猜错,并且我们的gitlab后台默认也是utf-8,提交GBK的注释在code review时也是乱码。