杭电2030之汉字统计

最新推荐文章于 2021-01-22 20:32:06 发布

Archerplus

最新推荐文章于 2021-01-22 20:32:06 发布

阅读量218

点赞数

文章标签：算法杭电汉字内码 c语言

本文链接：https://blog.csdn.net/qq_40511747/article/details/80509122

版权

汉字统计

Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)
Total Submission(s): 55377 Accepted Submission(s): 29949

Problem Description

统计给定文本文件中汉字的个数。

Input

输入文件首先包含一个整数n，表示测试实例的个数，然后是n段文本。

Output

对于每一段文本，输出其中的汉字的个数，每个测试实例的输出占一行。

[Hint:]从汉字机内码的特点考虑~

Sample Input

   2 WaHaHa! WaHaHa! 今年过节不说话要说只说普通话WaHaHa! WaHaHa! 马上就要期末考试了Are you ready? 
 

Sample Output

   14 9 
 

汉字内码的具体解释

因为汉字处理系统要保证中西文的兼容，当系统中同时存在 ASCII码和汉字国标码时，将会产生二义性。例如：有两个字节的内容为30H和21H，它既可表示汉字“啊”的国标码，又可表示西文“0”和“!”的ASCII码。为此，汉字机内码应对国标码加以适当处理和变换。

国标码的机内码为二字节长的代码，它是在相应国标码的每个字节最高位上加“1”，即

汉字机内码= 汉字国标码+8080H

例如，上述“啊”字的国标码是3021H，其汉字机内码则是B0A1H。

汉字机内码的基础是汉字国标码。

机内码：为了避免ASCII码和国标码同时使用时产生二义性问题，大部分汉字系统都采用将国标码每个字节高位置1作为汉字机内码。这样既解决了汉字机内码与西文机内码之间的二义性，又使汉字机内码与国标码具有极简单的对应关系。

汉字机内码、国标码和区位码三者之间的关系为：区位码（十进制）的两个字节分别转换为十六进制后加2020H得到对应的国标码；机内码是汉字交换码（国标码）两个字节的最高位分别加1，即汉字交换码（国标码）的两个字节分别加80H得到对应的机内码；区位码（十进制）的两个字节分别转换为十六进制后加A0H得到对应的机内码。

总结一句，就是汉字的内码的最高位是1，所以就是说汉字的ASCII码都是小于0的，而每个汉字都是由两个字节组成，所以最后的时候要除以二，才算作汉字的数量。

附上代码 c语言

    #include <stdio.h>
    int main ()
    {
        int i,n,sum;
        char c;
        scanf("%d",&n);
        getchar();
        while (n--)
        {
            sum =0 ;
            while ( (c= getchar())!= '\n')
            {
                if (c < 0 )
                    sum++;
            }
            printf("%d\n",sum/2);
        }

        return 0;
    }