判断txt文件字符集

    在提取txt文件时,发现个别文件的文字出现乱码,很是烦恼。后发现问题与txt文件所用字符集有关,在提取文件内容之前先行判断文件所用字符集,根据字符集有针对性地提取,情况有所改善。

   具体方法为,提取文件前四个字节,这四个字节提示txt所用的字符集,具体如下:


if ( first3Bytes[0] == (byte) 0xFF && first3Bytes[1] == (byte) 0xFE ) {
charset = "UTF-16LE";
}
//FEFF 开头,为UTF-16BE
else if ( first3Bytes[0] == (byte) 0xFE && first3Bytes[1] == (byte) 0xFF ) {
charset = "UTF-16BE";
}
//EFBBBF 开头,为UTF-8
else if ( first3Bytes[0] == (byte) 0xEF && first3Bytes[1] == (byte) 0xBB && first3Bytes[2] == (byte) 0xBF ) {
charset = "UTF-8";
}
//FFFE 开头,为unicode
else if(first3Bytes[0]==(byte)0xFF&&first3Bytes[1]==(byte)0xFE){
charset = "unicode";
}
//FEFF 开头,为unicode big endian
else if(first3Bytes[0]==(byte)0xFE&&first3Bytes[1]==(byte)0xFF){
charset="unicode big endian";
}
//其他情况默认为GBK编码
else{
charset="GBK";
}

这里,因为处理的文件大部分为中文,所以默认其他情况为GBK编码,也许不够严谨,但是可以处理大部分的情况。


  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值