用法char ch=getchar()正确性详解

最新推荐文章于 2023-09-04 21:44:24 发布

weixin_34337265

最新推荐文章于 2023-09-04 21:44:24 发布

阅读量4.3k

点赞数 8

文章标签： c/c++

原文链接：http://www.cnblogs.com/younes/archive/2010/05/31/1748002.html

版权

《C陷阱与缺陷》 chap5.1

#include <stdio.h>
int main()
{
    char c;    /* 改成：int c 就正确了 */
 
    while( ( c = getchar() ) != EOF )
    {
        putchar( c );
    }
 
    return 0;
}

getchar函数在一般情况下返回的是标准输入文件中的下一个字符，当没有输入时返回EOF（一个在头文件stdio.h中被定义的值，不同于任何一个字符，一般C语言实现定义为-1）。这个程序乍一看似乎把标准输入复制到标准输出，实则不然。

原因在于程序中的变量c被声明为char类型，而不是int类型。这意味着c无法容下所有可能的字符，特别是，可能无法容下EOF。因此，最终结果存在以下几种可能：

1）某些合法的输入在被截断后，使得c的取值和EOF相同；这时程序将在文件复制的中途终止；

2）c根本不可能取到EOF这个值；这时程序陷入死循环；

3）程序表面上似乎能够正常工作，但完全是因为巧合。尽管函数getchar的返回结果在赋值给char类型的变量c时会发生“截断”操作，尽管while语句中比较运算的操作数不是函数getchar的返回值，然而令人惊讶地是许多编译器对上述表达式的实现并不正确。这些编译器确实对函数getchar的返回值做了截断处理，并把低端直接部分赋给了变量c。但是，它们在比较表达式中并不是比较c与EOF，而是比较getchar函数的返回值与EOF，编译器如果采取这种做法，上面的例子程序看上去就能够“正常”运行了。

一篇网文的详尽分析（http://www.examda.com/ncre2/cpp/fudao/20090520/081605806.html）

　　许多初学者都习惯用 char 型变量接收 getchar、getc，fgetc 等函数的返回值，其实这么做是不对的，并且隐含着足以致命的错误。getchar 等函数的返回值类型都是 int 型，当这些函数读取出错或者读完文件后，会返回 EOF.EOF 是一个宏，标准规定它的值必须是一个 int 型的负数常量。通常编译器都会把 EOF 定义为 -1.问题就出在这里，使用 char 型变量接收 getchar 等函数的返回值会导致对 EOF 的辨认出错，或者错把好的数据误认为是 EOF，或者把 EOF 误认为是好的数据。例如：

　　int c;　 /* 正确。应该使用 int 型变量接收 fgetc 的返回值 */
　　while ( (c = fgetc(fp)) != EOF )
　　{
　　putchar(c);
　　}

　　如上例所示，我们很多时候都需要先用一个变量接收 fgetc 等函数的返回值，然后再用这个变量和 EOF 比较，判断是否已经读完文件。上面这个例子是正确的，把 c 定义为 int 型保证了它能正确接收 fgetc 返回的 EOF，从而保证了这个比较的正确性。但是，如果把 c 定义为 char 型，则会导致意想不到的后果。

　　首先，因为 fgetc 等函数的返回值是 int 型的，当赋值给 char 型变量时，会发生降级，从而导致数据截断。例如：
　　---------------------------------
　　| 十进制 |　　　　　 int　　　　 |　 char |
　　|--------|--------------|-------|
　　|　　 10　　 | 00 00 00 0A　 |　　 0A　 |
　　|　　 -1　　 | FF FF FF FF　 |　　 FF　 |
　　|　　 -2　　 | FF FF FF FE　 |　　 FE　 |
　　---------------------------------

　　在此，我们假设 int 和 char 分别是 32 位和 8 位的。由上表可得，从 int 型到 char 型，损失了 3 个字节的数据。而当我们要拿 char 型和 int 型比较的时候，char 型会自动升级为 int 型。char 型升级为 int 型后的值会因为它到底是 signed char 还是 unsigned char 而有所不同。不幸的是，如果我们没有使用 signed 或者 unsigned 来修饰 char，那么我们无从知晓 char 到底是指 unsigned char 还是指 signed char，因为这是由编译器决定的。不过，无论 char 是 signed 的也好，unsigned 的也罢，都不能改变使用 char 型变量接收 fgetc 等函数的返回值是错误的这个事实。唯一能改变的是该错误导致的后果。前面我们说了，char 型和 int 型比较时，char 会自动升级为 int，下面我们来看看 signed char 和 unsigned char 在转换成 int 后，它们的值有什么不同：

　　---------------------------------------
　　|　 char |　　 unsigned　　　 |　　 signed　　　 |
　　|-------|---------------|-------------|
　　|　 10　　 |　 00 00 00 0A　 | 00 00 00 0A |
　　|　 FF　　 |　 00 00 00 FF　 | FF FF FF FF |
　　|　 FE　　 |　 00 00 00 FE　 | FF FF FF FE |
　　---------------------------------------

　　由上表可知，当 char 是 unsigned 的时候，其转换为 int 后的值是正数。也就是说，假如我们把 c 定义为 char 型变量，而编译器默认 char 为 unsigned char，那么以下表达式将永远成立：

（c = fgetc（fp）） ！= EOF　 /* c 的值永远为正数，而标准规定 EOF 为负数 */

也就是说以下循环是一个死循环：

　　while ( (c = fgetc(fp)) != EOF )
　　{
    　　putchar(c);
　　}

　　读到这里，可能有些读者朋友会说：“那么我明确把 c 定义为 signed char 型的就没问题了吧！”很遗憾，就算把 c 定义为 signed char，仍然是错误的。假设 fgetc 等函数读到一个字节的值为 FF，那么返回值就是 00 00 00 FF。把这个值赋值给 c 后， c 的值变成 FF。然后 c 的值为了和 EOF 比较，会自动升级为 int 型的值，也就是 FF FF FF FF。从而导致以下表达式不成立：

（c = fgetc（fp）） ！= EOF　 /* 读到值为 FF 的字符，误认为 EOF */

也就是说以下循环在没有读完文件的情况下提前退出while循环。

　　综上所述，使用 char 型变量接收 fgetc 等函数的返回值是错误的，我们必须使用 int 型变量接收这些函数的返回值，然后判断接收到的值是否 EOF.只有判断发现该返回值并非 EOF，我们才可以把该值赋值给 char 型变量。
　　同理，C++ 中，用 char 型变量接收 cin.get（）的返回值也是错误的。不过，把 char 型变量当作参数传递给 cin.get 则是正确的。例如：

　　char c = cin.get();　        // 错误，理由同上
　　char c;
　　cin.get(c);　　　　　　　　　 // 正确

转载于:https://www.cnblogs.com/younes/archive/2010/05/31/1748002.html