读入文件里的每个单词

C Programming Language 一书中给出了从标准输入中读入一个字符数字组合的串的函数getword。而若要对文本文件进行词频统计,就需要对书中给出的 getword进行改进,现给出改进方法。
先给出整体代码:

int getch(FILE *fp)
{
    FILE *p;
    p=fp;
    return (bufp > 0) ? buf[--bufp] : getc(p);
} 

void ungetch(int c)
{
    if(bufp>=BUFFSIZE)
        printf("too many characters");
    else
        buf[bufp++]=c;
}

int getword(char *word, int lim, FILE* fp)
{
    FILE* p1;
    p1=fp;
    int c;
    int getch(FILE * fp);
    void ungetch(int);
    char *w = word;
    
    while(isspace(c=tolower(getch(p1))))
    {
        ;
    }
    if(c!=EOF)
        *w++ = c;
    if(!isalpha(c))
    {
        *w = '\0';
        return c;
    }
    for( ; --lim>0; w++)
    {
        if(!isalpha(*w = tolower(getch(p1)))) //此处将大写转为小写,词频不分大小写的情况下。
        {
            ungetch(*w);
            break;
        }
    }
    *w = '\0';
    return word[0];
}

getch函数是读入一个字符的函数,传入参数为要读文件的指针。注意此处与书上所给传入void类型参数不同。
ungetch是把多余的字符压回去。
getword函数是整体读一个单词(只含英文字母),同样注意参数较书上函数多一个文件指针,这个指针是给getch函数使用。
同时,为了只读入字母,将两个字符判断函数都写为isalpha。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值