c++判断字符串是否为utf8编码

在解析文本文件时,如果不能提前知道它的编码方式,就有可能出现乱码的情况。在windows平台下,win7系统文本文件默认为ANSI即多字节编码,而win10和win11默认为utf-8编码。

如果想要查看文本文件的编码方式,可以用记事本打开文件,然后选择"另存为"菜单,即可查看当前的编码方式。如下图所示,文件为utf-8编码。在winwin11系统下,也可以直接从右下角状态栏获取编码方式。

不论是ANSI,还是UTF-8,在打开文件之前,都无法得知其编码方式。常用的方法是先按照ANSI读取,然后判断字符串是否UTF-8编码,如果是,再转换为ANSI编码。

判断字符串是否为UTF-8编码,参考下面博客:

https://blog.csdn.net/zison_sun/article/details/5815746

代码如下:

bool IsUTF8(const void *pBuffer, int size)
{
	bool IsUTF8 = false;
	unsigned char *start = (unsigned char *)pBuffer;
	unsigned char *end = (unsigned char *)pBuffer + size;
	while (start < end)
	{
		if (*start < 0x80) // (10000000): 值小于0x80的为ASCII字符 
		{
			start++;
		}
		else if (*start < (0xC0)) // (11000000): 值介于0x80与0xC0之间的为无效UTF-8字符 
		{
			IsUTF8 = false;
			break;
		}
		else if (*start < (0xE0)) // (11100000): 此范围内为2字节UTF-8字符 
		{
			IsUTF8 = true;
			if (start >= end - 1)
				break;
			if ((start[1] & (0xC0)) != 0x80)
			{
				IsUTF8 = false;
				break;
			}
			start += 2;
		}
		else if (*start < (0xF0)) // (11110000): 此范围内为3字节UTF-8字符 
		{
			IsUTF8 = true;
			if (start >= end - 2) break;
			if ((start[1] & (0xC0)) != 0x80 || (start[2] & (0xC0)) != 0x80)
			{
				IsUTF8 = false; break;
			}
			start += 3;
		}
		else if (*start < (0xF8)) // (11111000): 此范围内为4字节UTF-8字符 
		{
			IsUTF8 = true;
			if (start >= end - 3) break;
			if ((start[1] & (0xC0)) != 0x80 || (start[2] & (0xC0)) != 0x80 || (start[3] & (0xC0)) != 0x80)
			{
				IsUTF8 = false; break;
			}
			start += 4;
		}
		else
		{
			IsUTF8 = false;
			break;
		}
	}
	return IsUTF8;
}

与原始代码相比,做了两处修正。

1、bool IsUTF8 = false,默认为非UFT8,直到遇到UFT8为止,这样更加准确。

2、增加4字节长度判断,即 else if (*start < (0xF8))行。

  • 13
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值