c++判断字符串是否为utf8编码

最新推荐文章于 2024-04-12 17:37:53 发布

ljy338

最新推荐文章于 2024-04-12 17:37:53 发布

阅读量961

点赞数 13

分类专栏： c++ 文章标签： c++ 单片机 stm32

本文链接：https://blog.csdn.net/ljy338/article/details/135955603

版权

c++ 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

在解析文本文件时，如果不能提前知道它的编码方式，就有可能出现乱码的情况。在windows平台下，win7系统文本文件默认为ANSI即多字节编码，而win10和win11默认为utf-8编码。

如果想要查看文本文件的编码方式，可以用记事本打开文件，然后选择"另存为"菜单，即可查看当前的编码方式。如下图所示，文件为utf-8编码。在winwin11系统下，也可以直接从右下角状态栏获取编码方式。

不论是ANSI，还是UTF-8，在打开文件之前，都无法得知其编码方式。常用的方法是先按照ANSI读取，然后判断字符串是否UTF-8编码，如果是，再转换为ANSI编码。

判断字符串是否为UTF-8编码，参考下面博客：

https://blog.csdn.net/zison_sun/article/details/5815746

代码如下：

bool IsUTF8(const void *pBuffer, int size)
{
	bool IsUTF8 = false;
	unsigned char *start = (unsigned char *)pBuffer;
	unsigned char *end = (unsigned char *)pBuffer + size;
	while (start < end)
	{
		if (*start < 0x80) // (10000000): 值小于0x80的为ASCII字符 
		{
			start++;
		}
		else if (*start < (0xC0)) // (11000000): 值介于0x80与0xC0之间的为无效UTF-8字符 
		{
			IsUTF8 = false;
			break;
		}
		else if (*start < (0xE0)) // (11100000): 此范围内为2字节UTF-8字符 
		{
			IsUTF8 = true;
			if (start >= end - 1)
				break;
			if ((start[1] & (0xC0)) != 0x80)
			{
				IsUTF8 = false;
				break;
			}
			start += 2;
		}
		else if (*start < (0xF0)) // (11110000): 此范围内为3字节UTF-8字符 
		{
			IsUTF8 = true;
			if (start >= end - 2) break;
			if ((start[1] & (0xC0)) != 0x80 || (start[2] & (0xC0)) != 0x80)
			{
				IsUTF8 = false; break;
			}
			start += 3;
		}
		else if (*start < (0xF8)) // (11111000): 此范围内为4字节UTF-8字符 
		{
			IsUTF8 = true;
			if (start >= end - 3) break;
			if ((start[1] & (0xC0)) != 0x80 || (start[2] & (0xC0)) != 0x80 || (start[3] & (0xC0)) != 0x80)
			{
				IsUTF8 = false; break;
			}
			start += 4;
		}
		else
		{
			IsUTF8 = false;
			break;
		}
	}
	return IsUTF8;
}

与原始代码相比，做了两处修正。

1、bool IsUTF8 = false，默认为非UFT8，直到遇到UFT8为止，这样更加准确。

2、增加4字节长度判断，即 else if (*start < (0xF8))行。

ljy338

关注

13
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
c++判断字符串是否为utf8编码

如果想要查看文本文件的编码方式，可以用记事本打开文件，然后选择"另存为"菜单，即可查看当前的编码方式。在windows平台下，win7系统文本文件默认为ANSI即多字节编码，而win10和win11默认为utf-8编码。不论是ANSI，还是UTF-8，在打开文件之前，都无法得知其编码方式。常用的方法是先按照ANSI读取，然后判断字符串是否UTF-8编码，如果是，再转换为ANSI编码。1、bool IsUTF8 = false，默认为非UFT8，直到遇到UFT8为止，这样更加准确。
复制链接

扫一扫