使用cpdetector检测文件编码格式

/**
* 读文件,根据文件名,返回文件内容字符串;
* 读文件之前会探测编码格式,按准确的编码格式进行读取;若编码格式探测失败,则默认按照"UTF-8"进行读取
*/
public static String readFileToStringByPath(String filePath) {
String fileContent = null;
File file = new File(filePath);
if (file.isFile()) {
/* 

* 探测编码格式;http://cpdetector.sourceforge.net/;

        * detector是探测器,它把探测任务交给具体的探测实现类的实例完成。 
        * cpDetector内置了一些常用的探测实现类,这些探测实现类的实例可以通过add方法 加进来,如ParsingDetector、 
        * JChardetFacade、ASCIIDetector、UnicodeDetector。 
        * detector按照“谁最先返回非空的探测结果,就以该结果为准”的原则返回探测到的字符集编码。 
        * 使用需要用到三个第三方JAR包:antlr.jar,chardet.jar,jargs-1.0.jar和cpdetector.jar 
        * cpDetector是基于统计学原理的,不保证完全正确。 
        */
       CodepageDetectorProxy detector = CodepageDetectorProxy.getInstance();
       /*
        * ParsingDetector可用于检查HTML、XML等文件或字符流的编码,构造方法中的参数用于
        * 指示是否显示探测过程的详细信息,为false不显示。
        */
       detector.add(new ParsingDetector(false));
       /*
        * JChardetFacade封装了由Mozilla组织提供的JChardet,它可以完成大多数文件的编码
        * 测定。所以,一般有了这个探测器就可满足大多数项目的要求,如果你还不放心,可以
        * 再多加几个探测器,比如下面的ASCIIDetector、UnicodeDetector等。
        */
       detector.add(JChardetFacade.getInstance());// 用到antlr.jar、chardet.jar
       // ASCIIDetector用于ASCII编码测定,
       //JChardetFacade已可满足大多数项目的要求,ASCIIDetector暂不用
   //    detector.add(ASCIIDetector.getInstance());
       // UnicodeDetector用于Unicode家族编码的测定 
     //JChardetFacade已可满足大多数项目的要求,UnicodeDetector暂不用
   //    detector.add(UnicodeDetector.getInstance());
       
       //编码格式
       String encoding = null;
       java.nio.charset.Charset charset = null; 
       try {
           charset = detector.detectCodepage(file.toURI().toURL());
       } catch (Exception ex) {
           ex.printStackTrace();
       }
       if (charset != null) {
        encoding = charset.name();
       }else {
        //若编码格式探测失败,则默认按照"UTF-8"进行读文件
        encoding = "UTF-8";
       }
    try {
    fileContent = FileUtils.readFileToString(file,encoding);
    } catch (IOException e) {
    e.printStackTrace();
    }
}
return fileContent;
}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值