移除UTF-8文件头的bom

最新推荐文章于 2021-05-27 07:16:45 发布

YetAlpha

最新推荐文章于 2021-05-27 07:16:45 发布

阅读量221

点赞数

文章标签： java 开发工具

本文链接：https://blog.csdn.net/lovelyangelshuai/article/details/84534467

版权

UTF-8 BOM又叫UTF-8 签名，在UTF-8文件的头部，长度为3个字节。其实UTF-8 的BOM对UFT-8没有作用，BOM签名的意思就是告诉编辑器当前文件采用何种编码，方便编辑器识别。但是在Eclipse中，带有BOM的java源码生成javadoc时却会出现如下错误：

[java]view plaincopy
        
    
E:/workspace/Test/src/express/ExpType.java:1: 非法字符： /65279  
?package express;  
^  

　　一个个修改是个办法，但是面对几百上几千个的源文件，一个个去修改决不是程序员的作风。于是我写了一段代码，能够批量移除UTF-8的BOM，其实质就是删除带有BOM信息的UTF-8文件的前三字节，代码共享如下：

[java]view plaincopy
        
    
import java.io.File;  
import java.io.IOException;  
import java.util.Collection;  
import org.apache.commons.io.DirectoryWalker;  
import org.apache.commons.io.FileUtils;  
import org.apache.commons.io.FilenameUtils;  
@SuppressWarnings("rawtypes")  
public class Utf8BomRemover extends DirectoryWalker {  
    public static void main(String[] args) throws IOException {  
        //删除指定文件夹下（含子文件夹）所有java文件的BOM，若构造器中参数为null则删除所有文件头部BOM  
        new Utf8BomRemover("java").start(new File("E:/workspace/Test/src"));  
    }  
    private String extension = null;  
    public Utf8BomRemover(String extension) {  
        super();  
        this.extension = extension;  
    }  
      
    @SuppressWarnings("unchecked")  
    public void start(File rootDir) throws IOException {  
        walk(rootDir, null);  
    }  
    protected void handleFile(File file, int depth, Collection results) throws IOException {  
        if (extension == null  
                || extension.equalsIgnoreCase(FilenameUtils.getExtension(file.toString()))) {  
            //调用具体业务逻辑，其实这里不仅可以实现删除BOM，还可以做很多想干的事情。  
            remove(file);  
        }  
    }  
      
    private void remove(File file) throws IOException {  
        byte[] bs = FileUtils.readFileToByteArray(file);  
        if (bs[0] == -17 && bs[1] == -69 && bs[2] == -65) {  
            byte[] nbs = new byte[bs.length - 3];  
            System.arraycopy(bs, 3, nbs, 0, nbs.length);  
            FileUtils.writeByteArrayToFile(file, nbs);  
            System.out.println("Remove BOM: " + file);  
        }  
    }  
}  

　　在这个类中能把指定文件夹中指定后缀名的文件统一去除BOM，而整个程序源码中没有看到用递归算法，而是使用了apache commons-io ，其实递归算法就在DirectoryWalker 类中，实现者无需关心算法，而是关注于业务。同时，这里给一个提醒，commons-io最新版是2.0，修改了1.4中的一些bug，其中有一处就是DirectoryWalker 类，因此建议使用最新版的commons-io。

YetAlpha

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
移除UTF-8文件头的bom

UTF-8 BOM又叫UTF-8 签名，在UTF-8文件的头部，长度为3个字节。其实UTF-8 的BOM对UFT-8没有作用，BOM签名的意思就是告诉编辑器当前文件采用何种编码，方便编辑器识别。但是在Eclipse中，带有BOM的java源码生成javadoc时却会出现如下错误： [java] view plaincopy E:/workspace/Test/...
复制链接

扫一扫