/* THE PROGRAM IS MADE BY PYY */ /*----------------------------------------------------------------------------// Copyright (c) 2011 panyanyany All rights reserved. Review: 此程序为将记事本中的空格,回车,制表符删除。 1. 记事本中 ANSI 编码和 UINCODE 并存。比如,有两种空格模式,遇到 ' ' 时,是ANSI 的空格模式,遇到 ' ' 时,是中文空格模式,上一种也叫做半角模式,下一种也叫做 全角模式。 而对于 '\t' 和 '\n' 则无此区分。 因此需要在判断的时候加入全角空格的判断,其值为 -95,不过,会出现这样的情况, 比如在一句话的结尾,往往有这样的符号 '!”' (单引号内的为两个连续的中文符号), 全角的 '!' 低字节和 全角的 '”' 高字节均为 -95,即那两个连续中文字符的内存编码 为: -93,-95,-95,-97, 若在写程序的时候,一味地根据 -95 的特征来判断,则会出现把 中间那两个字节删除的情况,剩下的两个字节将组成新的全角字符 '1'。 因此,为了避免这种情况的发生,我想出的方法就是在遇到中文字符或全角字符的第 一个字节时(此字节的值小于0且不等于-95),便紧接着读取下一个字节到输出文件中 比如,在遇到上述的'!”'两个字符时,程序先遇到了-93,则判断其为中文或全角 字符,于是紧接着将-95也输出到文件中。如此一来便不会出现如上所述的误判的情况了。 2. 还有一个问题是,我使用VC6.0进行编程的时候,在有 '//(2)' 标记的位置,我是先 有这么句话的 t = fgetc (in) ; 然后才将 t == -95 放在判断位置。一开始我曾试着 把它们整合成一句话,即:if (fgetc (in) == -95) ,但我发现这样是行不通的,程序 会无法进行第二个 -95 的判断,从而使这段清除全角空格的语句失效。但是,如果改成 if ((t = fgetc (in)) == -95) 则程序能正常使用。这是个很奇怪的问题,我一直无法 搞明白,希望有人能指点一二,不胜感激! //----------------------------------------------------------------------------*/ #include <stdio.h> #include <stdlib.h> #define ISSPACE(c) ((c) == '\t' || (c) == ' ' || (c) == '\n' || (c) == '\r') char text[100000] ; int main () { FILE *in, *out ; int i ; char c = 0, t ; in = fopen ("in.txt", "r") ; out = fopen ("out.txt", "w") ; while (!feof (in)) { c = fgetc (in) ; // printf ("%d, ", c) ; if (!ISSPACE (c)) { if (c == -95) { // printf ("c == -95 ") ; t = fgetc (in) ; if (t == -95) // (2) { // printf ("&& fgetc == %d \n", t) ; continue ; } fseek (in, -1, SEEK_CUR) ; // printf ("fgetc != -95\n") ; } // printf ("%d", c) ; fputc (c, out) ; if (c < 0) // 将中文字符或全角字符的第二个字节也一并输出到文件中 fputc (fgetc (in), out) ; } // system ("pause") ; } fclose (in) ; fclose (out) ; return 0 ; }
删除文本中的空格和回车
最新推荐文章于 2021-06-07 18:29:55 发布