一个UTF-8的文件格式,需要删除其中的英文标点和字母。
之前没有处理过含有中文的东西,所以对于这个编码完全不懂。赶紧先看看了。
其实UTF-8是ASCII的一个超集。很好理解。UTF-8是一个变长的编码方式。
比如第一个字节是0xxx xxxx就代表它是一个字节长度,也就是ASCII
110x xxxx那么他就是两个字节(因为开头有两个1)。
一次类推。。。目前好像是最多使用到六字节。但是从原理上来说,可以最多八字节的。
UTF-16是一个固定的2字节的长度。但不兼容ASCII
// consel2010.cpp : 定义控制台应用程序的入口点。
/*环境win7 64位OS VS2010*/
#include "stdafx.h"
#include <iostream>
#include <fstream>
#include <sstream>
#include <string>
using namespace std;
bool isDeleted(char ch);//判断当前字符是否需要被删除
int _tmain(int argc, _TCHAR* argv[])
{
ifstream ifs("input_utf8.txt");
if(ifs.bad())
{
cout<<"读取失败"<<endl;
ifs.close();
return -1;
}
ofstream ofs("output_utf8.txt");
if (ofs.bad())
{
ofs << "写入失败" << endl;
ofs.close();
return -1;
}
string line;
while(getline(ifs,line))
{
for(string::iterator i = line.begin(); i != line.end(); i++)
{
if(isDeleted(*i))
{
line.erase(i--);
}
}
ofs<<line<<endl;
}
getchar();
return 0;
}
bool isDeleted(char ch)//判断当前字符是否需要被删除
{
if( ch > 0x7f) //非ansii码
return false;
if(( ch>='A' && ch<='Z') //字母删除
|| ch>='a' && ch<='z')
return true;
switch(ch)//我只添加几个用来测试
{
case '.':
case ',':
case ';':
case '?':return true;
default:break;
}
return false;
}
/*
功能:实现文件编码格式的判断
通过一个文件的最前面三个字节,可以判断出该的编码类型:
ANSI: 无格式定义;(第一个字节开始就是文件内容)
Unicode: 前两个字节为FFFE;
Unicode big endian: 前两字节为FEFF;
UTF-8: 前两字节为EFBB,第三字节为BF
*/
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
// 读取一个文件的最前面n个字节,并以十六进制形式输出每个字节的值
voidreadNBytes(char*fileName,intn)
{
FILE*fp = fopen(fileName,"r");
unsignedchar*buf = (unsigned char*)malloc(sizeof(unsignedchar)*n);
inti;
if(fp == NULL)
{
printf("open file [%s] failed.\n", fileName);
return;
}
fread(buf,sizeof(unsignedchar), n, fp);
fclose(fp);
printf("%s:\t", fileName);
for(i = 0; i < n; i++)
{
printf("%x\t", buf[i]);
}
printf("\n");
free(buf);
}
voidmain()
{
charfileName[][50] = {"ansi.txt","unicode.txt","ubigendian.txt","utf8.txt"};
inti;
for(i = 0; i < 4; i++)
{
// 每个文件中的内容都是:你what123456
readNBytes(fileName[i], 3);
}
}
|