日语文本编码不一致导致的乱码问题
问题描述:
日语编码(JIS, Shift-JIS, ECU-JP等)的文本文件,用UTF-8编码打开的话,会产生乱码问题。
原因分析:
计算机刚开始出现的时候,只能处理英语,后面为了支持越来越多的国家语言,各个国家组织独立开发出各种字符编码以便可以显示其国家语言,随着计算机在全世界范围的普及,开发出了Unicode编码,Unicode是一组经过编号的字符,可以兼容全世界各地的字符,例如英语,日语,中文,俄语和符号,Unicode现在是字符编码行业的标准。
-
UTF-8格式
- UTF-8 是一种转换 Unicode 数字的方法,以便计算机可以理解它们。 由于它可以转换 Unicode 中定义的数字,因此可以表示来自世界各地的字符。 因此,UTF-8 是世界上最常用的字符代码,被认为是世界上的标准字符代码。
[TIP]
也就是说,只要使用UTF-8格式编码编写的文本文件,在全世界任何国家任何计算机打开都不会出现乱码问题
- UTF-8 是一种转换 Unicode 数字的方法,以便计算机可以理解它们。 由于它可以转换 Unicode 中定义的数字,因此可以表示来自世界各地的字符。 因此,UTF-8 是世界上最常用的字符代码,被认为是世界上的标准字符代码。
-
Shift_JIS
- Shift_JIS 是 Microsoft 开发的一种字符编码,用于显示日语,并在 Windows 和 Mac 等许多计算机上使用。 它被广泛用作处理日语的字符代码,但根据它的使用方式,它有乱码等缺点。
-
EUC-JP
- EUC-JP 是用于在类 UNIX 操作系统上显示日语的字符编码之一。 可以在 Windows 和 Mac 上的 Web 浏览器中查看它,但文本编辑器可能不支持它。
解决办法:
- 使用Word
- 想要打开的文件->右键->打开方式->Word,在编码的下拉里面选择相应的编码,直到预览窗口不显示乱码为止。
使用VSCode
- 想要打开的文件->右键->打开方式->VSCode,