C Programming Language 一书中给出了从标准输入中读入一个字符数字组合的串的函数getword。而若要对文本文件进行词频统计,就需要对书中给出的 getword进行改进,现给出改进方法。
先给出整体代码:
int getch(FILE *fp)
{
FILE *p;
p=fp;
return (bufp > 0) ? buf[--bufp] : getc(p);
}
void ungetch(int c)
{
if(bufp>=BUFFSIZE)
printf("too many characters");
else
buf[bufp++]=c;
}
int getword(char *word, int lim, FILE* fp)
{
FILE* p1;
p1=fp;
int c;
int getch(FILE * fp);
void ungetch(int);
char *w = word;
while(isspace(c=tolower(getch(p1))))
{
;
}
if(c!=EOF)
*w++ = c;
if(!isalpha(c))
{
*w = '\0';
return c;
}
for( ; --lim>0; w++)
{
if(!isalpha(*w = tolower(getch(p1)))) //此处将大写转为小写,词频不分大小写的情况下。
{
ungetch(*w);
break;
}
}
*w = '\0';
return word[0];
}
getch函数是读入一个字符的函数,传入参数为要读文件的指针。注意此处与书上所给传入void类型参数不同。
ungetch是把多余的字符压回去。
getword函数是整体读一个单词(只含英文字母),同样注意参数较书上函数多一个文件指针,这个指针是给getch函数使用。
同时,为了只读入字母,将两个字符判断函数都写为isalpha。