c语言统计文本中不同单词频率
标准英文文章中两个单词间即使有标点符号,也会存在空格,所以可用空格区分单词,可用fscanf函数特性,一次读取一个单词
- 此为改进版(运用链表存储)
#include<stdio.h>
#include<ctype.h>
#include<string.h>
#include<stdlib.h>
typedef struct word{
char wrd[20];
struct word *next;
int num;
}word;
static int total_words=0; //单词总数
static int diff_words=0; //不同单词个数
void insert(word * const head,char *s,int size)
{
word *cur;
word *newwrd;
total_words++;
if (!isalpha(s[size-1])) //因为最后一个字母可能是标点符号,所以去掉
s[size-1]='\0';
cur=head->next;
while (cur!=NULL) //遍历链表
{
if (!strcmp(cur->wrd,s)) //若链表中已存在,num++,并结束此函数
{
cur->num++;
return;
}
cur=cur->next;
}
newwrd=(word*)malloc(sizeof(word)); //执行到这里说明没有找到相同单词,执行头插法
newwrd->num=1;
strcpy(newwrd->wrd,s);
newwr