移除UTF-8文件头的bom

UTF-8 BOM又叫UTF-8 签名,在UTF-8文件的头部,长度为3个字节。其实UTF-8 的BOM对UFT-8没有作用,BOM签名的意思就是告诉编辑器当前文件采用何种编码,方便编辑器识别。但是在Eclipse中,带有BOM的java源码生成javadoc时却会出现如下错误:

 

[java]  view plain copy
 
  1. E:/workspace/Test/src/express/ExpType.java:1: 非法字符: /65279  
  2. ?package express;  
  3. ^  

  一个个修改是个办法,但是面对几百上几千个的源文件,一个个去修改决不是程序员的作风。于是我写了一段代码,能够批量移除UTF-8的BOM,其实质就是删除带有BOM信息的UTF-8文件的前三字节,代码共享如下:

 

[java]  view plain copy
 
  1. import java.io.File;  
  2. import java.io.IOException;  
  3. import java.util.Collection;  
  4. import org.apache.commons.io.DirectoryWalker;  
  5. import org.apache.commons.io.FileUtils;  
  6. import org.apache.commons.io.FilenameUtils;  
  7. @SuppressWarnings("rawtypes")  
  8. public class Utf8BomRemover extends DirectoryWalker {  
  9.     public static void main(String[] args) throws IOException {  
  10.         //删除指定文件夹下(含子文件夹)所有java文件的BOM,若构造器中参数为null则删除所有文件头部BOM  
  11.         new Utf8BomRemover("java").start(new File("E:/workspace/Test/src"));  
  12.     }  
  13.     private String extension = null;  
  14.     public Utf8BomRemover(String extension) {  
  15.         super();  
  16.         this.extension = extension;  
  17.     }  
  18.       
  19.     @SuppressWarnings("unchecked")  
  20.     public void start(File rootDir) throws IOException {  
  21.         walk(rootDir, null);  
  22.     }  
  23.     protected void handleFile(File file, int depth, Collection results) throws IOException {  
  24.         if (extension == null  
  25.                 || extension.equalsIgnoreCase(FilenameUtils.getExtension(file.toString()))) {  
  26.             //调用具体业务逻辑,其实这里不仅可以实现删除BOM,还可以做很多想干的事情。  
  27.             remove(file);  
  28.         }  
  29.     }  
  30.       
  31.     private void remove(File file) throws IOException {  
  32.         byte[] bs = FileUtils.readFileToByteArray(file);  
  33.         if (bs[0] == -17 && bs[1] == -69 && bs[2] == -65) {  
  34.             byte[] nbs = new byte[bs.length - 3];  
  35.             System.arraycopy(bs, 3, nbs, 0, nbs.length);  
  36.             FileUtils.writeByteArrayToFile(file, nbs);  
  37.             System.out.println("Remove BOM: " + file);  
  38.         }  
  39.     }  
  40. }  

  在这个类中能把指定文件夹中指定后缀名的文件统一去除BOM,而整个程序源码中没有看到用递归算法,而是使用了apache commons-io ,其实递归算法就在DirectoryWalker 类中,实现者无需关心算法,而是关注于业务。同时,这里给一个提醒,commons-io最新版是2.0,修改了1.4中的一些bug,其中有一处就是DirectoryWalker 类,因此建议使用最新版的commons-io。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值