无BOM的条件下C语言判断一个文件是否为UTF-8编码代码(windows,linux通用)

本文提供了一段C语言代码,用于在无BOM(Byte Order Mark)的情况下判断一个文件是否采用UTF-8编码。代码通过检查字节序列的特定模式来确定是否符合UTF-8编码规范。
摘要由CSDN通过智能技术生成

大家知道判断一个文件编码如若有BOM位(方便编辑器识别是何种编码,在文件开头处加的标志位,我是这样理解BOM的,并且我们用一般的编辑器打开是看不到BOM位的,我们必须用能二进制编辑的编辑器打开才看得到BOM位),比如如果是UTF-8,如若有BOM位,其前3位分别是EF,BB,BF。

有BOM的情况下,我们只需判断关三个字节就可知该文件的编码方式(这是大多数情况),但如果该文件没有BOM呢(我们程序自己写的文件可能就没有BOM位),这时判断是不是UTF-8编码就要用UTF-8编码的特点来依次判断是不是UTF-8编码,以下是代码,自测通过。

如若看不懂代码,可以搜下UTF-8编码是怎么编码的。

//判断字符串是否为UTF-8,str是指向需要判断是否为UTF-8内容的指针,如若是返回true,否则返回false.
bool contentIsUtf8(char *str)
{    
 int i = 0;    
 int size = strlen(str);      
 while(i < size)    
 {        
  int step = 0;        
  if((str[i] & 0x80) == 0x00)       
  {            
   step = 1;        
  }else if((str[i] & 0xe0) == 0xc0)        
  {            
   if(i + 1 >= size)
    return false;    

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值