大家知道判断一个文件编码如若有BOM位(方便编辑器识别是何种编码,在文件开头处加的标志位,我是这样理解BOM的,并且我们用一般的编辑器打开是看不到BOM位的,我们必须用能二进制编辑的编辑器打开才看得到BOM位),比如如果是UTF-8,如若有BOM位,其前3位分别是EF,BB,BF。
有BOM的情况下,我们只需判断关三个字节就可知该文件的编码方式(这是大多数情况),但如果该文件没有BOM呢(我们程序自己写的文件可能就没有BOM位),这时判断是不是UTF-8编码就要用UTF-8编码的特点来依次判断是不是UTF-8编码,以下是代码,自测通过。
如若看不懂代码,可以搜下UTF-8编码是怎么编码的。
//判断字符串是否为UTF-8,str是指向需要判断是否为UTF-8内容的指针,如若是返回true,否则返回false.
bool contentIsUtf8(char *str)
{
int i = 0;
int size = strlen(str);
while(i < size)
{
int step = 0;
if((str[i] & 0x80) == 0x00)
{
step = 1;
}else if((str[i] & 0xe0) == 0xc0)
{
if(i + 1 >= size)
return false;