无BOM的条件下C语言判断一个文件是否为UTF-8编码代码（windows,linux通用）

最新推荐文章于 2023-12-07 19:30:00 发布

lufubo

最新推荐文章于 2023-12-07 19:30:00 发布

阅读量3k

点赞数

分类专栏：工作开发

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lufubo/article/details/8232234

版权

本文提供了一段C语言代码，用于在无BOM（Byte Order Mark）的情况下判断一个文件是否采用UTF-8编码。代码通过检查字节序列的特定模式来确定是否符合UTF-8编码规范。

摘要由CSDN通过智能技术生成

大家知道判断一个文件编码如若有BOM位（方便编辑器识别是何种编码，在文件开头处加的标志位，我是这样理解BOM的，并且我们用一般的编辑器打开是看不到BOM位的，我们必须用能二进制编辑的编辑器打开才看得到BOM位），比如如果是UTF-8，如若有BOM位，其前3位分别是EF,BB,BF。

有BOM的情况下，我们只需判断关三个字节就可知该文件的编码方式（这是大多数情况），但如果该文件没有BOM呢（我们程序自己写的文件可能就没有BOM位），这时判断是不是UTF-8编码就要用UTF-8编码的特点来依次判断是不是UTF-8编码，以下是代码，自测通过。

如若看不懂代码，可以搜下UTF-8编码是怎么编码的。

//判断字符串是否为UTF-8，str是指向需要判断是否为UTF-8内容的指针，如若是返回true,否则返回false.
bool contentIsUtf8(char *str)
{
int i = 0;
int size = strlen(str);
while(i < size)
{
  int step = 0;
  if((str[i] & 0x80) == 0x00)
  {
   step = 1;
  }else if((str[i] & 0xe0) == 0xc0)
  {
   if(i + 1 >= size)
    return false;

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。