文本检索算法

最新推荐文章于 2024-08-01 11:50:33 发布

MrSean

最新推荐文章于 2024-08-01 11:50:33 发布

阅读量4.6k

点赞数

分类专栏：编程文章标签：算法 file 存储语言 c

本文链接：https://blog.csdn.net/fmh2011/article/details/7683176

版权

编程专栏收录该内容

7 篇文章 0 订阅

订阅专栏

纯C语言实现。

这个函数的功能是检索文件中的单词，并定位到那一行，并输出出现数目。

算法感觉难度不是特别大，但我这个算法效率并不高，准备以后写个效率更高的。

函数的第二个参数可以删除，在这里并没有什么用。

void word_count(FILE *file,int *line_no,char *word)   //统计单词所在行及其所在行数的数目
{
int word_num=0;   //记录单词的数目
int line_num=0;   //统计行号
int i=0,j=0;   //用于循环控制
int k=0;
int word_sum=0;   //记录单词总数
char line[LINESIZE]; //存储一行的单词
char temp[WORDSIZE]; //存储一行中要比较的单词

fseek( file , 0 , SEEK_SET );  //因为可能多次调用该函数，每次都将指针定位到文件头部
while(fgets(line,LINESIZE,file))
{
  for(i=0;i<=strlen(line);i++)
  {
   if(line[i]==' '||line[i]==','||line[i]==' .'||line[i]=='\n'||line[i]=='\0')
   {
    for(;j<i;j++)
    {
     if((line[j]>='a'&&line[j]<='z')||(line[j]>='A'&&line[j]<='Z')) //文本中出现的特殊字符的过滤
     {
      if(line[j]>='A'&&line[j]<='Z')   //忽略大小写，大写和小写都视作相同单词
       temp[k++]=line[j]+32;
      else
       temp[k++]=line[j];
     }
    }
    temp[k]='\0';
    j=i+1;
    k=0;
    if(strcmp(word,temp)==0)   //比较单词是否相同
     word_num++;
   }
  }
  j=0;
  line_num++;

  word_sum+=word_num;
  if(word_num!=0)
   printf("%s出现行号%d,出现次数为%d\n%s",word,line_num,word_num,line);
  word_num=0;
}
printf("%s总数为%d\n",word,word_sum);
}