一个文本文件,如何知道它是GBK编码、还是UTF-8编码?BOM是什么东西?

( Java 面试题  | Java学习指南 )

我们平时看到的文本文件,虽然都是文本,但有的是GBK编码,有的UTF-8编码。那么,对于一个阅读器,它在读取一个文本文件时如何知道它是GBK还是UTF-8呢?

 

奥秘在于文件头部的几个字节。

规定如下:当以UTF16或UTF-8编码存储时,头部需要添加几个字节作为标识。称为 BOM

UTF8: 头部3个字节 EF BB BF
UTF16BE (Big-Endian) : FE FF 
UTF16LE (Little-Endian) : FF FE

由于UTF-8是我们常见的类型,所以只要关闭UTF-8的BOM即可。

 

当我们自己读取一个文本文件时,便要注意这种事情。要检测头部是否有 EF BB BF ,这三个字节是编码标识,不是有效内容。

final byte[] bom= { (byte)0xEF, (byte)0xBB, (byte)0xBF };
if ( buf[0] == bom[0] && buf[1] == bom[1] && buf[2] == bom[2] )
{
    // It's UTF8 encoded ...
}

反之,如果没有检测到这几种BOM,但是ANSI(本地字符编码)。对于Windows中文版来说,本地编码就是GBK编码。

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
在Node.js中,可以使用iconv-lite库来处理UTF-8编码。iconv-lite是一个纯JS实现的库,支持多种编码格式,包括UTF-8。 下面是一个GBK文件读取内容,然后将编码转存为UTF-8编码的例子: ``` var buffer = Buffer.from(fs.readFileSync('gbkFile.txt',{encoding:'binary'}),'binary'); console.log(buffer);//得到文件内容对应的Buffer var text = iconv.decode(buffer,'GBK');//使用GBK解码 console.log(text); fs.writeFileSync('utfFile.txt',iconv.encode(text, 'utf8'),'binary'); //按二进制方式写入 fs.writeFileSync('utfFile2.txt',text,'utf8'); //按UTF8写入。 ``` 这个例子首先使用fs.readFileSync方法读取GBK编码文件,并将其保存为二进制的Buffer。然后使用iconv.decode方法将Buffer解码为GBK编码的文本。接下来,使用fs.writeFileSync方法将解码后的文本按照UTF-8编码保存为二进制文件utfFile.txt,以及按照UTF-8编码保存为UTF-8文本文件utfFile2.txt。 需要注意的是,Unicode标准允许在UTF-8中使用BOM(字节顺序标记),但一般不建议使用它。在使用Node.js处理UTF-8编码时,通常不需要使用BOM。 <span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [Node.js环境中使用GBK编码](https://blog.csdn.net/violentbomb/article/details/52919206)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *3* [gulp-bom:将UTF-8 BOM添加到文件](https://download.csdn.net/download/weixin_42134338/19080088)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

阿发你好

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值