批量转换文件编码

背景描述

在eclipse环境下开发程序,默认的【项目】编码一般都会从【工作空间/Workspace】的编码设置继承下来,具体位置是【eclipse】->【窗口】->【首选项】->【常规】->【工作空间】->『文本文件编码』。当然,我们也可以为某个项目特别指定编码格式。正常情况是项目开始时,就规定好编码格式,以后所有创建的文本文件都会按照这个格式进行编码。但有时有可能会发生点意外,比如个别模块与整个项目的编码不同,或是需要整体调整项目编码,这时可以利用Linux的iconv来进行批量转换。

注意:先备份原始文件,以免出现意外情况。

文件扩展名过滤

想要进行批量转换,首先要进行文件过滤,也就是指明哪些文件是需要进行编码转换的。利用下面的语句可以找到当前目录以及子目录下所有文件的后缀

$ vdir -R | grep ^- | grep -oE '[.]\w+$' | sort | uniq
.java
.properties

『vdir -R』列出当前目录以及子目录下所有的目录和文件

『grep ^-』过滤掉目录内容

『grep -oE '[.]\w+$'』去除扩展名以外的内容

『sort』对扩展名进行排序

『uniq』去除重复内容

经过上面的命令过滤后,目标扩展名的结果显示,只有『.java』和『.properties』两种类型的文件。

目标文件定位

上面的例子只是帮助我们来判断有哪些类型的文件需要转换,而实际工作中的情况可能是多变的。我遇到的问题就是要转换那些非Abstract开头并且结尾是UI.java的文件。所以先通过下面命令找出目标文件。

$ find -regextype egrep -regex .*UI.java | grep -v Abstract
./base/client/AssessmentLevelEditUI.java
./base/client/AssessmentLevelListUI.java
./base/client/AssessmentPeriodEditUI.java
./base/client/AssessmentPeriodGuidanceEditUI.java
./base/client/AssessmentPeriodListUI.java
./base/client/AssessmentRatioEditUI.java
./base/client/AssessmentRatioListUI.java
./floatingbonus/client/FloatingBonusAssessmentEditUI.java
./floatingbonus/client/FloatingBonusAssessmentListUI.java
./floatingbonus/client/FloatingBonusSclassApplyEditUI.java
./floatingbonus/client/FloatingBonusSclassApplyListUI.java

格式转换

然后利用『iconv』命令来进行文件编码转换,新文件的扩展名为*.test。注意一下选项-s和-c的用法。

$ iconv --help
Usage: iconv [OPTION...] [-f ENCODING] [-t ENCODING] [INPUTFILE...]
or:    iconv -l

Converts text from one encoding to another encoding.

Options controlling the input and output format:
  -f ENCODING, --from-code=ENCODING
                              the encoding of the input
  -t ENCODING, --to-code=ENCODING
                              the encoding of the output

Options controlling conversion problems:
  -c                          discard unconvertible characters
  --unicode-subst=FORMATSTRING
                              substitution for unconvertible Unicode characters
  --byte-subst=FORMATSTRING   substitution for unconvertible bytes
  --widechar-subst=FORMATSTRING
                              substitution for unconvertible wide characters

Options controlling error output:
  -s, --silent                suppress error messages about conversion problems

Informative output:
  -l, --list                  list the supported encodings
  --help                      display this help and exit
  --version                   output version information and exit

Report bugs to bug-gnu-libiconv@gnu.org

转换命令:

$ for file in `find -regextype egrep -regex .*UI.java | grep -v Abstract`; do iconv -s -c -f UTF-8 -t GB2312 $file > $file.test ; done

转换后的文件列表如下:

$ find . -name *.test
./base/client/AssessmentLevelEditUI.java.test
./base/client/AssessmentLevelListUI.java.test
./base/client/AssessmentPeriodEditUI.java.test
./base/client/AssessmentPeriodGuidanceEditUI.java.test
./base/client/AssessmentPeriodListUI.java.test
./base/client/AssessmentRatioEditUI.java.test
./base/client/AssessmentRatioListUI.java.test
./floatingbonus/client/FloatingBonusAssessmentEditUI.java.test
./floatingbonus/client/FloatingBonusAssessmentListUI.java.test
./floatingbonus/client/FloatingBonusSclassApplyEditUI.java.test
./floatingbonus/client/FloatingBonusSclassApplyListUI.java.test

文件替换

最后一步就是把*.test文件替换原始文件。

$ for file in `find . -name *.test` ; do mv $file ${file/.test/} ; done
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
你可以使用以下Python代码来批量修改文件编码: ```python import os from chardet import detect def convert_encoding(path): with open(path, 'rb') as fp: content = fp.read() encoding = detect(content)['encoding'] content = content.decode(encoding).encode('utf8') with open(path, 'wb') as fp: fp.write(content) def batch_convert_encoding(directory): for root, dirs, files in os.walk(directory): for file in files: if file.endswith(('.c', '.cpp', '.h', '.hpp')): path = os.path.join(root, file) convert_encoding(path) # 使用示例 batch_convert_encoding("目标文件夹目录") ``` 这段代码会递归地遍历指定目录下的所有文件,并将后缀名为.c, .cpp, .h, .hpp的文件转换为UTF-8编码。首先,它通过chardet库检测文件的原始编码。然后,将文件内容按照检测到的编码解码,并重新以UTF-8编码写入文件。这样就完成了批量修改文件编码的操作。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [python 批量修改文件编码](https://blog.csdn.net/Eternal_Whispers/article/details/120220132)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* *3* [python实现批量转换文件编码encoding](https://blog.csdn.net/awisc/article/details/120901910)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值