一个UTF-8的文件，需要删除其中的英文标点和字母。

本文链接：https://blog.csdn.net/vvviippp/article/details/7570956

一个UTF-8的文件格式，需要删除其中的英文标点和字母。

之前没有处理过含有中文的东西，所以对于这个编码完全不懂。赶紧先看看了。

其实UTF-8是ASCII的一个超集。很好理解。UTF-8是一个变长的编码方式。

比如第一个字节是0xxx xxxx就代表它是一个字节长度，也就是ASCII

110x xxxx那么他就是两个字节（因为开头有两个1）。

一次类推。。。目前好像是最多使用到六字节。但是从原理上来说，可以最多八字节的。

UTF-16是一个固定的2字节的长度。但不兼容ASCII

 
        
       // consel2010.cpp : 定义控制台应用程序的入口点。
/*环境win7 64位OS  VS2010*/
#include "stdafx.h"
#include <iostream>
#include <fstream>
#include <sstream>
#include <string>
using namespace std;

bool isDeleted(char ch);//判断当前字符是否需要被删除

int _tmain(int argc, _TCHAR* argv[])
{
	ifstream ifs("input_utf8.txt");
	if(ifs.bad())
	{
		cout<<"读取失败"<<endl;
		ifs.close();
		return -1;
	}

	ofstream ofs("output_utf8.txt");
    if (ofs.bad())
    {
        ofs << "写入失败" << endl;
        ofs.close();
		return -1;
    }
	
	string line;
	while(getline(ifs,line))
	{	
		for(string::iterator i = line.begin(); i != line.end(); i++)
		{
			if(isDeleted(*i))
			{
				line.erase(i--);
			}
		}
		ofs<<line<<endl;
	}
	getchar();
    return 0;
}

bool isDeleted(char ch)//判断当前字符是否需要被删除
{
	if( ch > 0x7f)  //非ansii码
		return false;

	if(( ch>='A' && ch<='Z')  //字母删除
		|| ch>='a' && ch<='z')
		return true;

	switch(ch)//我只添加几个用来测试
	{
	case '.':
	case ',':
	case ';':
	case '?':return true;
	default:break;
	}

	return false;

} 
      
 
      另外附一个转载的判断文件格式的程序。原文地址http://blog.sina.com.cn/s/blog_4c5db778010009hh.html 
     
 
       
      /*
    功能：实现文件编码格式的判断
    通过一个文件的最前面三个字节，可以判断出该的编码类型：
    ANSI：　　　　　　　　无格式定义；(第一个字节开始就是文件内容)
    Unicode： 　　　　　　前两个字节为FFFE；
    Unicode big endian：　前两字节为FEFF；　 
    UTF-8：　 　　　　　　前两字节为EFBB，第三字节为BF
*/
 
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
 
// 读取一个文件的最前面n个字节，并以十六进制形式输出每个字节的值
voidreadNBytes(char*fileName,intn)
{
    FILE*fp = fopen(fileName,"r");
    unsignedchar*buf = (unsigned char*)malloc(sizeof(unsignedchar)*n);
    inti;
    if(fp == NULL)
    {
        printf("open file [%s] failed.\n", fileName);
        return;
    }
    fread(buf,sizeof(unsignedchar), n, fp);
    fclose(fp);
    printf("%s:\t", fileName);
    for(i = 0; i < n; i++)
    {
        printf("%x\t", buf[i]);
    }
    printf("\n");
    free(buf);
}
 
voidmain()
{
    charfileName[][50] = {"ansi.txt","unicode.txt","ubigendian.txt","utf8.txt"};
    inti;
    for(i = 0; i < 4; i++)
    {
        // 每个文件中的内容都是：你what123456
        readNBytes(fileName[i], 3);
    }
}