让Unzip正确解压其中包含中文文件名的Winzip压缩包

让Unzip正确解压其中包含中文文件名的Winzip压缩包
作者: 廖中熙(原创)
关键字: Unzip,Winzip,中文化
E-mail: lzx21cn@21cn.com

一、问题的出现:
有一天有人发了个.zip的文件给我。我unzip它,却发现中文名的文件解出来文件名是错的。

二、上网寻找问题答案:
有网友告诉我,是因为winzip用某种OEM方式修改文件名所致(后来证明这个说法是错的),
要用另外一个某某更强大的zip并关闭OEM方式再压缩才行。
但我想我们不应让别人必须用某某个软件来将就Unzip。

三、临时解决问题:*本文所提供的方法是临时性的解决办法*

1. 到底发生了什么问题?
---------------------------
实验1:在Linux下用zip压缩两个中文名文件并命名为1.zip,
结果1:在windows98下用Winzip打开中文件名没问题。

实验2: 在windows98下用Winzip压缩相同的两个中文名文件并命名为2.zip,
结果2:在Linux下用Unzip打开中文名出来的完全不对,但长度一致。

实验3: 用二进制查看器比较两个压缩文件(1.zip,2.zip),
结果3:发现两个压缩文件中的文件名二进制编码是完全一样的。

实验4: Unzip比较两个压缩文件的信息
结果4: 除文件名不同以外,就是类型(type)不同,一个是Unix,一个是fat。

结论:
winzip存文件名的方法与Unzip完全相同,
问题在Unzip中,它将类型为fat的压缩文件中的文件名作了另外的解释。

2.解决问题的方法
***************************************
*修改Unzip让它对文件名不作另外的解释。*
***************************************
找呀找......,终于找到了(我是通过学习了emacs及etags来找的)
==============================================================================
在 Unzip-5.42 源文件包中的文件 unzpriv.h 约第 2396行上下
==============================================================================
/* Convert filename (and file comment string) into "internal" charset.
* This macro assumes that Zip entry filenames are coded in OEM (IBM DOS)
* codepage when made on
* -> DOS (this includes 16-bit Windows 3.1) (FS_FAT_)
* -> OS/2 (FS_HPFS_)
* -> Win95/WinNT with Nico Mak's WinZip (FS_NTFS_ && hostver == "5.0")
* EXCEPTIONS:
* PKZIP for Windows 2.5 and 2.6 flag their entries as "FS_FAT_", but the
* filename stored in the local header is coded in Windows ANSI (ISO 8859-1).
* Likewise, PKZIP for UNIX 2.51 flags its entries as "FS_FAT_", but the
* filenames stored in BOTH the local and the central header are coded
* in the local system's codepage (usually ANSI codings like ISO 8859-1).
*
* All other ports are assumed to code zip entry filenames in ISO 8859-1.
*/
#ifndef Ext_ASCII_TO_Native
# define Ext_ASCII_TO_Native(string, hostnum, hostver, isuxatt, islochdr) /
if (((hostnum) == FS_FAT_ && /
!(((islochdr) || (isuxatt)) && /
(hostver) >= 25 && (hostver) <= 26)) || /
(hostnum) == FS_HPFS_ || /
((hostnum) == FS_NTFS_ && (hostver) == 50)) { /
_OEM_INTERN((string)); /
} else { /
_ISO_INTERN((string)); /
}
#endif
=============================================================================
*******************************************
*临时修正的方法:全部都用函数_ISO_INTERN()*
*******************************************
修改如下:
=============================================================================
#ifndef Ext_ASCII_TO_Native
# define Ext_ASCII_TO_Native(string, hostnum, hostver, isuxatt, islochdr) /
/* if (((hostnum) == FS_FAT_ && /
* !(((islochdr) || (isuxatt)) && /
* (hostver) >= 25 && (hostver) <= 26)) || /
* (hostnum) == FS_HPFS_ || /
* ((hostnum) == FS_NTFS_ && (hostver) == 50)) { /
* _OEM_INTERN((string)); /
* } else { / */
_ISO_INTERN((string)); /
/* } */
#endif
==============================================================================
编译成功,试一试,正确认出winzip压缩的中文名!!!
==============================================================================

四、方法的局限性和临时性:
***************************************************************
*方法的缺点很明显,不能正确支持那几种作了特殊处理的文件名了!!!*
*所以请高手指教更优的方法!!! *
***************************************************************

五、总结:
1.自由软件真好!
不适合我们用的,我们可以修改它。

2.从一点一滴做起。
许多软件对中文支持的不好,但是我们大家齐努力,一定能作得更好。

3.别忘了将这些简单而不起眼的工作成果,告诉其开发小组。
我想这样做,我们可以“一劳永逸”,并有时间做其它的事情。
(虽然,我也不知道应发给谁和如何发,这一次我找到了一个开发人的E-mail并发给了他,不知道有没有用)

作者: 廖中熙
E-mail:lzx21cn@21cn.com
写于:2002年11月5日
http://www.linuxsir.org/bbs/showthread.php?t=126800

### 回答1: 如果使用 `unzip` 命令解压缩文件时,中文文件名出现了乱码,可能是因为默认情况下 `unzip` 不支持 UTF-8 编码。 为了解决这个问题,您可以使用 `-O` 参数指定字符集,例如: ``` unzip -O CP936 archive.zip ``` 其中,`CP936` 是简体中文的字符集编码,您可以根据需要使用不同的字符集。 如果您不确定应该使用哪个字符集,您可以尝试使用 `-O UTF8` 参数,这可能会解决中文文件名乱码问题。 ### 回答2: 当我们使用unzip命令解压包含中文文件名的文件时,可能会遇到乱码问题。这是因为在解压过程中,unzip默认使用的字符编码是ASCII,无法正确识别和显示中文字符。 为了解决这个问题,我们可以通过指定字符编码来解决乱码问题。常见的字符编码有utf-8、gbk等。具体操作如下: 1. 首先,我们需要确认我们的中文文件名的字符编码。可以通过使用命令"file -i 文件名"来查看文件的编码类型。 2. 然后,使用unzip命令解压文件,并通过添加参数"-O 字符编码"来指定字符编码。例如,如果我们的文件编码是utf-8,我们可以使用命令"unzip -O utf-8 文件名.zip"来解压文件。 这样,unzip命令会使用指定的字符编码来解析文件名,从而正确地显示中文字符。这种方法适用于大多数情况下的乱码问题。 如果仍然无法正确显示中文文件名,可能是由于文件本身的问题,导致其编码无法被正确识别。这种情况下,我们可以尝试使用其他工具来解压文件,如7-Zip等。这些工具通常会自动识别文件的编码,并正确显示中文文件名。 总之,通过指定正确的字符编码,我们可以解决unzip解压中文文件名乱码的问题,确保文件名能够正确显示。 ### 回答3: 当我们使用unzip命令解压含有中文文件名的压缩文件时,可能会遇到中文文件名乱码的问题。这是因为unzip命令默认使用的字符编码方式是ASCII编码,而中文字符使用的是Unicode编码。为了解决这个问题,我们可以使用以下两种方法: 方法一是通过指定字符编码方式来解决。我们可以使用unzip命令的参数“-O CP936”来指定字符编码方式为CP936(即GB2312或GBK编码)。例如,我们可以使用以下命令来解压一个压缩文件并指定字符编码方式为CP936: unzip -O CP936 filename.zip 方法二是更改系统环境变量,将字符编码方式默认设置为UTF-8。这样,在使用unzip命令解压文件时,会自动使用UTF-8编码来处理文件名,从而避免中文文件名乱码的问题。具体操作如下: 1. 打开终端窗口,并在命令行中输入以下命令: export UNZIP="-O UTF-8" 2. 然后,我们就可以使用unzip命令来解压文件了,例如: unzip filename.zip 通过以上两种方法的任意一种,我们都可以解决unzip解压中文文件名乱码的问题,确保能正确显示和处理中文文件名
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值