Java 判断文件的字符集编码

最近负责处理一批文件数据,有的文件很大普通的文本编辑器打不开,导致不知道其所属编码。于是乎想通过写程序判断,分享一下。


原理:

通过获取文件的前三个字节来判断,Unicode编码 前两个字节为FFFE; Unicode big endian编码的前两字节为FEFF;UTF-8编码的前两字节为EFBB;


代码:

package com.xx.test;

import java.io.BufferedInputStream;
import java.io.File;
import java.io.FileInputStream;

public class EncodeTest {

	/**
	 * @param args
	 */
	public static void main(String[] args) {
		
		test();
	}
	private static void test() {
		String dir = "D:/fbb/myWorkSpace_DW07/FinalDB/";
		String fileName = "FinalDB2013313-jzy-v001glasscom3243ac0f-f7fb-4517-9102-b5f1934536f7";
//		String fileName = "D:/fbb/myWorkSpace_DW07/common_glass.log";
		try {
			String encoding = codeString(dir,fileName);
			System.out.println("encoding:"+encoding);
		} catch (Exception e) {
			e.printStackTrace();
		}
		
	}
	/**
     * 判断文件的编码格式
     * @param fileName :file
     * @return 文件编码格式
     * @throws Exception
     */
    public static String codeString(String dir,String fileName) throws Exception{
    	
        File file = new File(dir+fileName);
        if(file==null || !file.exists()){
        	System.out.println("文件不存在..."+file.getAbsolutePath());
        	return null;
        }
        
		BufferedInputStream bin = new BufferedInputStream( new FileInputStream(file));
        int p = (bin.read() << 8) + bin.read();
        String code = null;
        //其中的 0xefbb、0xfffe、0xfeff、0x5c75这些都是这个文件的前面两个字节的16进制数
        switch (p) {
            case 0xefbb:
                code = "UTF-8";
                break;
            case 0xfffe:
                code = "Unicode";
                break;
            case 0xfeff:
                code = "UTF-16BE";
                break;
            case 0x5c75:
                code = "ANSI|ASCII" ;
                break ;
            default:
                code = "GBK";
        }
         
        return code;
    }
}






  • 4
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 8
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值