1109 综合实验：文件操作与字符处理

最新推荐文章于 2022-04-11 15:18:08 发布

Hunter_Kevin

最新推荐文章于 2022-04-11 15:18:08 发布

阅读量1.1k

点赞数 1

文章标签：字符串算法 c语言

本文链接：https://blog.csdn.net/Hunter_Kevin/article/details/117005682

版权

Description
在当前目录中存在文件名为"case1.in"（其中case后为数字1，不是字母l，写错提交后会判错）的文本文件，
其内容为一篇英文文章（以EOF作为结束标志）。现要求读取该文本文件内容，统计文章中每个单词出现的次数，
并输出出现次数最多的前5个单词及其出现次数（按出现次数由多到少的顺序输出，次数相同时按字典顺序输出，
不足5个单词时，按序输出全部单词）。程序中注意如下细节：
（1）空格、标点符号与回车符起到分隔单词的作用。
（2）文章一行的末尾可能有连字符，出现连字符时，该行最末的字符串与下行最先出现的字符串构一个单词；
（3）名词缩写算一个单词；
（4）数字不算单词；
（5）单词不区分大小写；
（6）输出时单词全使用小写；

#include “stdio.h”
#include “math.h”
#include “string.h”
#include “stdlib.h”

main()
{
_______________________
}

输入格式
文件case1.in中一篇英文文章，包含多段文字，单词数不超过10000，每个单词不超过20个字符

输出格式
按题意输出答案

输入样例
（如case1.in内容如下）
I am a student. My school is SCAU. It is a beau-
tiful university. I like it.

输出样例
a 2
i 2
is 2
it 2
am 1

本题关键在于调试，所以给出更多用例以便测试

标准输入数据:
I am a student. - 1 = 1 - 2. q = a - m.z = i - w.My school is SCAU.It is a beau -
tiful university.t - t - t - t, 123 123. I like it.

标准输出答案 :
    1 | t 4
    2 | a 3
    3 | i 3
    4 | is 2
    5 | it 2

/*
一、题目分析：
        本题是需要对文本信息进行处理，文本内容主要为英文字符、空格、回车符、连字符、数字字符、标点符号（, . =）;
        要求文本中提取出完整的单词，并对单词出现次数由高到低进行排序和输出对应单词
        所以大致可以分为四个部分解题： (1).单词拆分 (2).单词出现次数统计并且去重 (3).对去重后的单词排序 (4).输出结果
二、算法描述：
(1)、分离出单词：
	打开文件指针，fgets()函数读取文件中的一行字符串，遍历字符串，
    如果当前字符是连字符，则判断连字符是否位于一行的末尾，如果是，则继续读取下一行文本，否则判断连字符的前一个字符是否是字母，如果是则开始下一个单词的判断
    如果当前字符不是连字符而是字母，则把该字符s[i]放到letter[n][index]的位置，同时index++
    如果以上情况都不符合，则判断当前字符是否是空格或标点或回车符 并且上一个字符是字母，则该单词被分隔，
    执行letter[n++][index] = '\0', index = 0;即开始下一个单词的判断
(2)、单词次数统计并且去重：遍历存储分离出单词的字符串数组，初始化统计次数的数组time[]初值为1，即去重前的每一个单词都出现过一次，
    然后利用双层循环判断实现去重并且将去重后的所有的单词存储在字符串数组ans中，相应出现次数存储在time_1数组中
(3)、用选择排序对去重后的字符串数组ans[]和出现次数数组time_1[]由高到低排序
(4)、输出结果
*/

#include <cstdio>
#include <algorithm>
#include <iostream>
using namespace std;

char letter[10005][21], ans[10005][21];//存储按照读取去前的单词和去重后的单词
int time[10005] = { 0 }, n = 0, m = 0, time_1[10005] = { 0 };//time[]数组标记单词出现的次数，time_1[]数组存储去重后的单词出现的次数

int isLetter(char* ch);
void sortAns();
void split();

//判断是否是字母并且将大写字母转化为小写字母
int isLetter(char* ch)
{
    if (*ch >= 'A' && *ch <= 'Z')
        *ch += 'a' - 'A';
    return *ch >= 'a' && *ch <= 'z';
}
//选择排序
void sortAns()
{
    int i, j;
    for (i = 0; i < m - 1; i++)
    {
        int k = i;
        for (j = i + 1; j < m; j++)
            if (time_1[k] < time_1[j] || (time_1[k] == time_1[j] && strcmp(ans[k], ans[j]) > 0))
                k = j;
        if (k != i)
        {
            int t = time_1[k];
            time_1[k] = time_1[i];
            time_1[i] = t;
            char s[21] = "";
            strcpy(s, ans[k]);
            strcpy(ans[k], ans[i]);
            strcpy(ans[i], s);
        }
    }
    return;
}
//分离单词
void split()
{
    int i, j;
    for (i = 0; i < n; i++)
        time[i] = 1;
    for (i = 0; i < n; i++)
    {
        if (time[i] == 1)
        {
            for (j = i + 1; j < n; j++)
            {
                if (!strcmp(letter[i], letter[j]))
                {
                    time[j] = 0;
                    time[i]++;
                }
            }
            strcpy(ans[m], letter[i]);
            time_1[m] = time[i];
            m++;
        }
    }

    return;
}
int main()
{
    FILE* fp = fopen("case1.in", "r");
    if (fp == NULL)
        return 0;
    char s[10000] = "";
    int i, index = 0;

    while (fgets(s,1000,fp))
    {
        int len = strlen(s);
        for (i = 0; i < len; i++)
        {
            if (s[i] == '-')
            {
                if (i == len - 2)
                    continue;
                else if (isLetter(s + i - 1))
                    letter[n++][index] = '\0', index = 0;
            }
            else if (isLetter(&s[i]))
                letter[n][index++] = s[i];
            else if ((s[i] == ' ' || s[i] == '.' || s[i] == '\r' || s[i] == '\n' || s[i] == ',' || s[i] == '=') && (i - 1 >= 0 && isLetter(&s[i - 1])))
                letter[n++][index] = '\0', index = 0;
        }
    }
    fclose(fp);
    //for (i = 0; i < n; i++)
    //    printf("%s\n", letter[i]);

    split();//分离单词

    sortAns();//排序
    m = m < 5 ? m : 5;
    for (i = 0; i < m; i++)
        printf("%s %d\n", ans[i], time_1[i]);
    return 0;
}