Windows上压缩的文件在Linux上解压有乱码

 在Linux系统上解压中文文件名的压缩文件时,可能会遇到解压后的文件名是乱码的问题,如下图

这个问题遇到的人不少,网上一搜就可以找到解决办法,那就是解压的时候指定CP936编码就可以了,

unzip  -O CP936 XXXX.zip

之前我只是大体知道原因,但是没有详细的去了解过,下面就针对这个问题了解一下。

在Windows系统中,当文件名包含中文字符时,系统会使用Unicode编码格式来处理这些文件名。Unicode是一种标准字符编码,支持多种语言和字符集,包括中文字符。因此,当在Windows系统中压缩包含中文字符的文件时,系统会将文件名以Unicode编码的形式存储在压缩文件中,以确保文件名的正确显示和处理。

Linux系统默认情况下使用的是UTF-8编码格式来处理文件名。因此,当将包含中文字符的压缩文件从Windows系统中移动到Linux系统下,并使用unzip解压命令时,可能会出现乱码的情况。这种情况发生的原因是因为Linux系统默认的文件系统编码是UTF-8,而不是Windows系统中使用的Unicode编码(默认是UTF-16)。当Linux系统尝试解压包含中文字符文件名的压缩文件时,它会尝试使用UTF-8编码来解析文件名,而不是识别Windows系统中使用的UTF-16编码。因此,导致在Linux系统下解压后的文件名显示为乱码。

那么,为什么不是可以这样写:

unzip -O utf16  XXXX.zip

这样不就统一了吗,为什么还要使用CP936编码?CP936编码是什么编码?

CP936编码是一种针对中文字符集的编码方案,也被称为GBK编码、GB2312编码的扩展版本。CP936编码兼容ASCII编码,因此它不仅可以处理中文字符,也可以处理英文字符和数字字符。

在Linux系统中,unzip命令的-O选项用于指定输出文件名的编码格式,但并不会影响解压缩文件时所采用的解压缩编码。当使用unzip -O utf16命令时,-O utf16选项只会告诉unzip命令在解压缩后的输出文件名中使用UTF-16编码,但并不会强制unzip命令以UTF-16编码解压缩压缩文件中的文件名。

另一方面,当使用unzip -O CP936命令时,-O CP936选项指定了解压缩后的输出文件名编码为CP936(GBK编码),这会告诉unzip命令以指定的编码格式来处理输出文件名。因为CP936编码适用于中文字符,所以在解压包含中文字符文件名的压缩文件时,指定使用CP936编码能够更好地确保文件名显示正确。

换个说法就是,如果指定了-O utf16选项, unzip命令并不会强制unzip命令以UTF-16编码解压缩压缩文件中的文件名,而指定-O CP936选项时,unzip命令会强制unzip命令以CP936编码解压缩压缩文件中的文件名。

因此,指定-O CP936选项能够在解压包含中文字符文件名的压缩文件时,确保unzip命令使用正确的编码来处理输出文件名,而不会尝试使用系统默认的编码。

那为什么指定CP936编码,而不是GB2312?

CP936和GB2312都是用于表示中文字符集的编码方式,但它们之间有一些区别:

  1. GB2312是中国国家标准,于1981年发布,包含6763个汉字和682个非汉字字符,适用于简体中文。GB2312编码在早期被广泛应用于中文系统和软件中。

  2. CP936是Microsoft Windows系统中的中文字符集编码,也称为GBK编码。GBK编码在GB2312的基础上进行了扩展,包含了更多的汉字和符号,适用于简体中文和繁体中文。

由于CP936(GBK)编码包含了GB2312编码中的所有字符,并且还扩展了更多字符,因此在处理中文字符时,通常会选择使用CP936(GBK)编码,以确保能够涵盖更广泛的字符范围。因此,在Windows系统中处理中文字符时,通常会使用CP936(GBK)编码,而不是GB2312编码。

  • 25
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值