背景描述
在eclipse环境下开发程序,默认的【项目】编码一般都会从【工作空间/Workspace】的编码设置继承下来,具体位置是【eclipse】->【窗口】->【首选项】->【常规】->【工作空间】->『文本文件编码』。当然,我们也可以为某个项目特别指定编码格式。正常情况是项目开始时,就规定好编码格式,以后所有创建的文本文件都会按照这个格式进行编码。但有时有可能会发生点意外,比如个别模块与整个项目的编码不同,或是需要整体调整项目编码,这时可以利用Linux的iconv来进行批量转换。
注意:先备份原始文件,以免出现意外情况。
文件扩展名过滤
想要进行批量转换,首先要进行文件过滤,也就是指明哪些文件是需要进行编码转换的。利用下面的语句可以找到当前目录以及子目录下所有文件的后缀
$ vdir -R | grep ^- | grep -oE '[.]\w+$' | sort | uniq .java .properties
『vdir -R』列出当前目录以及子目录下所有的目录和文件
『grep ^-』过滤掉目录内容
『grep -oE '[.]\w+$'』去除扩展名以外的内容
『sort』对扩展名进行排序
『uniq』去除重复内容
经过上面的命令过滤后,目标扩展名的结果显示,只有『.java』和『.properties』两种类型的文件。
目标文件定位
上面的例子只是帮助我们来判断有哪些类型的文件需要转换,而实际工作中的情况可能是多变的。我遇到的问题就是要转换那些非Abstract开头并且结尾是UI.java的文件。所以先通过下面命令找出目标文件。
$ find -regextype egrep -regex .*UI.java | grep -v Abstract ./base/client/AssessmentLevelEditUI.java ./base/client/AssessmentLevelListUI.java ./base/client/AssessmentPeriodEditUI.java ./base/client/AssessmentPeriodGuidanceEditUI.java ./base/client/AssessmentPeriodListUI.java ./base/client/AssessmentRatioEditUI.java ./base/client/AssessmentRatioListUI.java ./floatingbonus/client/FloatingBonusAssessmentEditUI.java ./floatingbonus/client/FloatingBonusAssessmentListUI.java ./floatingbonus/client/FloatingBonusSclassApplyEditUI.java ./floatingbonus/client/FloatingBonusSclassApplyListUI.java
格式转换
然后利用『iconv』命令来进行文件编码转换,新文件的扩展名为*.test。注意一下选项-s和-c的用法。
$ iconv --help Usage: iconv [OPTION...] [-f ENCODING] [-t ENCODING] [INPUTFILE...] or: iconv -l Converts text from one encoding to another encoding. Options controlling the input and output format: -f ENCODING, --from-code=ENCODING the encoding of the input -t ENCODING, --to-code=ENCODING the encoding of the output Options controlling conversion problems: -c discard unconvertible characters --unicode-subst=FORMATSTRING substitution for unconvertible Unicode characters --byte-subst=FORMATSTRING substitution for unconvertible bytes --widechar-subst=FORMATSTRING substitution for unconvertible wide characters Options controlling error output: -s, --silent suppress error messages about conversion problems Informative output: -l, --list list the supported encodings --help display this help and exit --version output version information and exit Report bugs to bug-gnu-libiconv@gnu.org
转换命令:
$ for file in `find -regextype egrep -regex .*UI.java | grep -v Abstract`; do iconv -s -c -f UTF-8 -t GB2312 $file > $file.test ; done
转换后的文件列表如下:
$ find . -name *.test ./base/client/AssessmentLevelEditUI.java.test ./base/client/AssessmentLevelListUI.java.test ./base/client/AssessmentPeriodEditUI.java.test ./base/client/AssessmentPeriodGuidanceEditUI.java.test ./base/client/AssessmentPeriodListUI.java.test ./base/client/AssessmentRatioEditUI.java.test ./base/client/AssessmentRatioListUI.java.test ./floatingbonus/client/FloatingBonusAssessmentEditUI.java.test ./floatingbonus/client/FloatingBonusAssessmentListUI.java.test ./floatingbonus/client/FloatingBonusSclassApplyEditUI.java.test ./floatingbonus/client/FloatingBonusSclassApplyListUI.java.test
文件替换
最后一步就是把*.test文件替换原始文件。
$ for file in `find . -name *.test` ; do mv $file ${file/.test/} ; done