Aya的学习笔记:C语言,检测文件的编码格式,检测字符串是否是UTF-8。

检测文件编码格式

正文完全检测

检测文本文件的编码格式。
函数结束后文件内指针指向开始位置。
参数:文件指针。
返回值:

  • 0:ANSI
  • 1:UTF-8
  • 2:带BOM的UTF-8
  • 3:UTF-16 LE
  • 4:UTF-16 BE
  • 5:UTF-32 LE
  • 6:UTF-32 BE
#include <stdio.h>
#include <stdlib.h>

int testEncoding(FILE* fp)
{
	unsigned int bom;
	int i;

	if (fp == NULL)
		return -1;
	rewind(fp);
	for (i = 0, bom = 0; i < 4; i++)
	{
		bom = bom << 8;
		bom = bom + (unsigned char)fgetc(fp);
	}
	rewind(fp);

	if (bom == 0x0000FEFF)
		return 6;
	else if (bom == 0xFFFE0000)
		return 5;
	else if (bom >= 0xFEFF0001 && bom <= 0xFEFFFFFF)
		return 4;
	else if (bom >= 0xFFFE0001 && bom <= 0xFFFEFFFF)
		return 3;
	else if (bom >= 0xEFBBBF00 && bom <= 0xEFBBBFFF)
		return 2;
	else//如果执行到此意味着文本没有BOM
	{
		unsigned char test;
		int size = 0;
		while (1)//进入正文检测
		{
			test = fgetc(fp);//从fp获取一个待检测字符test。
			if (feof(fp) != 0)//如果fp指向文档结束位置,跳出循环。
				break;
			if (test >= 0xF0 && test < 0xF8)//test在1111 0000到1111 0111之间,这是一个4字节字符的首字节。
				size = 4;
			else if (test >= 0xE0 && test < 0xF0)//test在1110 0000到1110 1111之间,这是一个3字节字符的首字节。
				size = 3;
			else if (test >= 0xC0 && test < 0xE0)//test在1100 0000到1101 1111之间,这是一个2字节字符的首字节。
				size = 2;
			else if (test >= 0x80 && test < 0xC0)//test在1000 0000到1011 1111之间,这是一个中间字节。
				size = 0;
			else if (test >= 0x00 && test < 0x80)//test在0000 0000到0111 1111之间,这是一个1字节字符。
				size = 1;
			else//RFC 3629规定,5字节字符和6字节字符已经无法出现在合法 UTF-8序列中。
			{
				rewind(fp);
				return 0;
			}
			if (size == 0 || size == 1)
				continue;
			else
			{
				for (i = 0; i < size - 1; i++)//检测多字节字符是否符合UTF-8结构。
				{
					test = fgetc(fp);
					if (test < 0x80 || test >= 0xC0)
					{
						rewind(fp);
						return 0;
					}
				}
			}
		}
	}
	rewind(fp);
	return 1;
}
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值