1109 综合实验：文件操作与字符处理 SCAU

最新推荐文章于 2022-04-11 15:18:08 发布

Stack165

最新推荐文章于 2022-04-11 15:18:08 发布

阅读量1.4k

点赞数 4

分类专栏： oj程序设计

本文链接：https://blog.csdn.net/Tree_sea/article/details/117132754

版权

程序设计字符串

oj程序设计专栏收录该内容

14 篇文章 2 订阅

订阅专栏

1109 综合实验：文件操作与字符处理 SCAU

题目描述

Description

在当前目录中存在文件名为"case1.in"（其中case后为数字1，不是字母l，写错提交后会判错）的文本文件，
其内容为一篇英文文章（以EOF作为结束标志）。现要求读取该文本文件内容，统计文章中每个单词出现的次数，
并输出出现次数最多的前5个单词及其出现次数（按出现次数由多到少的顺序输出，次数相同时按字典顺序输出，
不足5个单词时，按序输出全部单词）。程序中注意如下细节：
（1）空格、标点符号与回车符起到分隔单词的作用。
（2）文章一行的末尾可能有连字符，出现连字符时，该行最末的字符串与下行最先出现的字符串构一个单词；
（3）名词缩写算一个单词；
（4）数字不算单词；
（5）单词不区分大小写；
（6）输出时单词全使用小写；

#include “stdio.h”
#include “math.h”
#include “string.h”
#include “stdlib.h”

main()
{
_______________________
}

输入格式
文件case1.in中一篇英文文章，包含多段文字，单词数不超过10000，每个单词不超过20个字符

输出格式
按题意输出答案

输入样例
（如case1.in内容如下）
I am a student. My school is SCAU. It is a beau-
tiful university. I like it.

输出样例
a 2
i 2
is 2
it 2
am 1

思路

用fgetc从文件中读取字符并进行处理，然后用选择排序的方法进行排序，最后输出。
使用结构体数组储存数据。

题目分析

从文件中读取文本内容，然后统计单词个数并按字典顺序和单词出现次数对单词进行排序，最后输出次数最多的前5个单词及其出现次数（按出现次数由多到少的顺序输出，次数相同时按字典顺序输出，不足5个单词时，按序输出全部单词），从而实现一个简单的统计排序功能。

变量说明

结构体d_word 储存单词和单词出现次数，使用结构体数组d_word T[10005]储存去重排序处理后单词信息，字符数组char words[10005] [25]储存从文件中读取的初始单词信息。

算法描述

使用选择排序的方法对单词次数从大到小排序，同时对单词出现次数相同的单词进行字典排序。选择排序的时间复杂度是O(n*n)。

单词去重和统计次数使用遍历数组的暴力算法，把初始读入的words数组中的元素一一与结构体数组T中元素比较，如果数组T中不存在该单词，则复制words数组中单词进T中，单词出现次数加1；若已经存在该单词，找到该单词所在数组位置，该单词出现次数加1。时间复杂度也是n的平方。

总结

一开始读取文件使用了fscanf读入一个字符串，然后发现读入之后较难进行单词处理，所以改用了每次读取一个字符的方法，对字符进行处理判断，并以读入单词，标点符号，回车符作为一个单词结束的标志。这样可以比较方便地处理分割单词，并且对一些不属于单词的字符可以不用读入数组中，比如空格或换行符，只是在写判断单词结束条件时花了比较多的时间。然后是排序那里一开始使用的是快排，后来发现快排写字典排序反而超时了，就使用了较简单的选择排序,复杂度是n的平方。运行时间是736 ms。

代码


#include "stdio.h"
#include "math.h"
#include "string.h"
#include "stdlib.h"



typedef struct d_word
{
    char word[25] = {'\0'};
    int time = 0;
} d_word;



int getfile(char words[][25],d_word T[])//从文件中读取单词并返回单词个数
{
    FILE* fp;
    fp = fopen("case1.in", "r");
    if (fp==NULL)
    {
        printf ("error");
        exit(0);
    }
    char temp[25],ch,ch1;
    int i, j, q=0, k,n=0,num=0;
    while((ch=fgetc(fp))!=EOF)
    {
        if(ch>='a'&&ch<='z')
            words[n][q++]=ch;
        else if(ch>='A'&&ch<='Z')
            words[n][q++]=ch+32;
        else if(ch=='-')//判断是否为连字符
        {
            ch=fgetc(fp);
            if(ch=='\n')
                continue;
            else
            {
                n++;
                q=0;
                if(ch>='a'&&ch<='z')
                    words[n][q++]=ch;
                else if(ch>='A'&&ch<='Z')
                    words[n][q++]=ch+32;
            }
        }
        else
        {
            n++;
            q=0;
        }
    }
    for(i=0; i<n; i++)
    {
        if(words[i][0]<'a'||words[i][0]>'z')
        {
            words[i][0]='\0';
        }
    }
    fclose(fp);
    return n;
}

int De_duplication(int n,d_word T[],char words[][25])//单词去重+统计出现次数
{
    int num = 0;
    int i, j, k;
    int flag = 0;
    for (i = 0; i < n; i++)
    {
        for (j = 1,flag=0; j <= num&&words[i][0]!='\0'; j++)
        {
            if (strcmp(words[i], T[j].word)==0)
            {
                flag = 1;
                T[j].time++;
                break;
            }
        }

        if (flag != 1&&words[i][0]!='\0')
        {
            num++;
            strcpy(T[j].word, words[i]);
            T[j].time++;
        }

        flag=0;
    }
    return num;
}

void Sort(d_word T[],int m)//选择排序
{
    int i,j,k;
    char temp[25];
    for (i = 1; i < m ; i++)
    {
        k = i;
        for (j = i + 1; j <= m; j++)
            if (T[k].time < T[j].time || (T[k].time == T[j].time 
            && strcmp(T[k].word, T[j].word) > 0))
                k = j;
        if (k != i)
        {
            int t = T[k].time;
            T[k].time = T[i].time;
            T[i].time = t;
            memset(temp,0,sizeof(temp));
            strcpy(temp, T[k].word);
            memset(T[k].word,0,sizeof(T[k].word));
            strcpy(T[k].word, T[i].word);
            memset(T[i].word,0,sizeof(T[i].word));
            strcpy(T[i].word, temp);
        }
    }
    return;
}

int main()
{
    char words[10005][25];
    int i, j, k, n, m;
    d_word T[10005];
    n=getfile(words,T);//读取文件
    m=De_duplication(n,T,words);//去重+计数
    Sort(T, m);//选择排序
    for (i=1; i<=5&&i<=m; i++)
    {
        printf("%s %d\n",T[i].word,T[i].time);
    }
    return 0;
}
参考(https://blog.csdn.net/Hunter_Kevin/article/details/117005682)