读入文件里的每个单词

最新推荐文章于 2023-10-01 21:12:48 发布

treeall

最新推荐文章于 2023-10-01 21:12:48 发布

阅读量427

点赞数

本文链接：https://blog.csdn.net/delicateally/article/details/88686108

版权

C Programming Language 一书中给出了从标准输入中读入一个字符数字组合的串的函数getword。而若要对文本文件进行词频统计，就需要对书中给出的 getword进行改进，现给出改进方法。
先给出整体代码：

int getch(FILE *fp)
{
    FILE *p;
    p=fp;
    return (bufp > 0) ? buf[--bufp] : getc(p);
} 

void ungetch(int c)
{
    if(bufp>=BUFFSIZE)
        printf("too many characters");
    else
        buf[bufp++]=c;
}

int getword(char *word, int lim, FILE* fp)
{
    FILE* p1;
    p1=fp;
    int c;
    int getch(FILE * fp);
    void ungetch(int);
    char *w = word;
    
    while(isspace(c=tolower(getch(p1))))
    {
        ;
    }
    if(c!=EOF)
        *w++ = c;
    if(!isalpha(c))
    {
        *w = '\0';
        return c;
    }
    for( ; --lim>0; w++)
    {
        if(!isalpha(*w = tolower(getch(p1)))) //此处将大写转为小写，词频不分大小写的情况下。
        {
            ungetch(*w);
            break;
        }
    }
    *w = '\0';
    return word[0];
}

getch函数是读入一个字符的函数，传入参数为要读文件的指针。注意此处与书上所给传入void类型参数不同。
ungetch是把多余的字符压回去。
getword函数是整体读一个单词（只含英文字母），同样注意参数较书上函数多一个文件指针，这个指针是给getch函数使用。
同时，为了只读入字母，将两个字符判断函数都写为isalpha。