一个UTF-8的文件,需要删除其中的英文标点和字母。

一个UTF-8的文件格式,需要删除其中的英文标点和字母。
之前没有处理过含有中文的东西,所以对于这个编码完全不懂。赶紧先看看了。

其实UTF-8是ASCII的一个超集。很好理解。UTF-8是一个变长的编码方式。
比如第一个字节是0xxx xxxx就代表它是一个字节长度,也就是ASCII
110x xxxx那么他就是两个字节(因为开头有两个1)。
一次类推。。。目前好像是最多使用到六字节。但是从原理上来说,可以最多八字节的。

UTF-16是一个固定的2字节的长度。但不兼容ASCII

// consel2010.cpp : 定义控制台应用程序的入口点。
/*环境win7 64位OS  VS2010*/
#include "stdafx.h"
#include <iostream>
#include <fstream>
#include <sstream>
#include <string>
using namespace std;

bool isDeleted(char ch);//判断当前字符是否需要被删除

int _tmain(int argc, _TCHAR* argv[])
{
	ifstream ifs("input_utf8.txt");
	if(ifs.bad())
	{
		cout<<"读取失败"<<endl;
		ifs.close();
		return -1;
	}

	ofstream ofs("output_utf8.txt");
    if (ofs.bad())
    {
        ofs << "写入失败" << endl;
        ofs.close();
		return -1;
    }
	
	string line;
	while(getline(ifs,line))
	{	
		for(string::iterator i = line.begin(); i != line.end(); i++)
		{
			if(isDeleted(*i))
			{
				line.erase(i--);
			}
		}
		ofs<<line<<endl;
	}
	getchar();
    return 0;
}

bool isDeleted(char ch)//判断当前字符是否需要被删除
{
	if( ch > 0x7f)  //非ansii码
		return false;

	if(( ch>='A' && ch<='Z')  //字母删除
		|| ch>='a' && ch<='z')
		return true;

	switch(ch)//我只添加几个用来测试
	{
	case '.':
	case ',':
	case ';':
	case '?':return true;
	default:break;
	}

	return false;

}
另外附一个转载的判断文件格式的程序。原文地址http://blog.sina.com.cn/s/blog_4c5db778010009hh.html
/*
    功能:实现文件编码格式的判断
    通过一个文件的最前面三个字节,可以判断出该的编码类型:
    ANSI:        无格式定义;(第一个字节开始就是文件内容)
    Unicode:       前两个字节为FFFE;
    Unicode big endian: 前两字节为FEFF;  
    UTF-8:        前两字节为EFBB,第三字节为BF
*/
 
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
 
// 读取一个文件的最前面n个字节,并以十六进制形式输出每个字节的值
voidreadNBytes(char*fileName,intn)
{
    FILE*fp = fopen(fileName,"r");
    unsignedchar*buf = (unsigned char*)malloc(sizeof(unsignedchar)*n);
    inti;
    if(fp == NULL)
    {
        printf("open file [%s] failed.\n", fileName);
        return;
    }
    fread(buf,sizeof(unsignedchar), n, fp);
    fclose(fp);
    printf("%s:\t", fileName);
    for(i = 0; i < n; i++)
    {
        printf("%x\t", buf[i]);
    }
    printf("\n");
    free(buf);
}
 
voidmain()
{
    charfileName[][50] = {"ansi.txt","unicode.txt","ubigendian.txt","utf8.txt"};
    inti;
    for(i = 0; i < 4; i++)
    {
        // 每个文件中的内容都是:你what123456
        readNBytes(fileName[i], 3);
    }
}


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值