说明
以前遇到过Linux下打包的tar.gz文件,拿回Windows后用Winrar或者7-Zip解压,如果含有中文得到的文件名/目录名就会乱码掉的情况。
下面是使用python tarfile模块,使用utf-8编码正确解压tar包的python脚本:
# Extract .tar.* files with utf-8 encoded filenames.
import tarfile, sys
if len(sys.argv) == 2:
try:
tar = tarfile.open(name=sys.argv[1], encoding='utf-8')
except:
print('Failed opening %s' % sys.argv[1])
sys.exit(2)
tar.extractall()
tar.close()
else:
print('Usage:');
print('extracttar.py <tarfile>');
感谢
感谢#archlinux-cn频道的猫猫虫、微型百合。
参考资料
猫猫虫给的代码片段,http://p.vim-cn.com/cbyK/text
Python文档,tarfile.open方法,https://docs.python.org/3/library/tarfile.html?highlight=tarfile#tarfile.open
Python文档,TarFile Object,https://docs.python.org/3/library/tarfile.html?highlight=tarfile#tarfile-objects
Python文档,Unicode Issues,https://docs.python.org/3/library/tarfile.html?highlight=tarfile#unicode-issues