Python 统计红楼梦、Jane Eyre词频方法

Hinomoto Oniko

已于 2023-02-02 15:26:21 修改

阅读量1k

点赞数 1

分类专栏： Python 文章标签： python 开发语言

于 2023-01-01 10:43:48 首次发布

本文链接：https://blog.csdn.net/Amzmks/article/details/128510874

版权

Python 专栏收录该内容

81 篇文章 9 订阅

订阅专栏

该代码示例使用Python的pandas库处理文本文件，包括读取和写入文件，去除特殊字符，统计单词出现次数，并将结果保存为CSV文件。问题1关注特定单词在文件中出现的行数，问题2则统计文件中所有字符的频率，问题3对另一个文件进行相似的单词计数操作。

摘要由CSDN通过智能技术生成

包含去除标点符号和换行、空格等因素

import pandas as pd




def question1():

    words = ['贾宝玉', '宝玉', '林黛玉', '黛玉']

    with open("HLM-UTF-8.txt", 'r', encoding='UTF-8') as r:

        lines = r.readlines()

        with open('result1.txt', 'w', encoding='UTF-8') as w:

            for word in words:

                w.write(word + '出现的行数及行如下：\n')

                for line in lines:

                    if word in line:

                        w.write(str(lines.index(line) + 1) + line)

            w.close()

        r.close()




def question2():

    result = {}

    with open("HLM-UTF-8.txt", 'r', encoding='UTF-8') as r:

        lines = r.readlines()

        for line in lines:

            line = line.strip()

            for char in '!"#$&()*+,-./:;<=>?@[\\]^_{|}·~‘’\n\'＂＃＄％＆＇（）＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､　、〃〈〉《》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏﹑﹔·！？｡。\u3000':

                line = line.replace(char, "")

            for char in line:

                if char in list(result.keys()):

                    result[char] += 1

                else:

                    result[char] = 1

        df = pd.DataFrame(result, index=[0]).T

        df.to_csv("result2.csv", encoding='utf-8-sig')

        r.close()




def question3():

    result = {}

    with open('JaneEyre.txt', 'r') as r:

        lines = r.readlines()

        for line in lines:

            line = line.lower()

            for char in '!"#$&()*+,-./:;<=>?@[\\]^_{|}·~‘’\u3000\n\'':

                line = line.replace(char, "")

                words = line.split(' ')

            for word in words:

                if word in list(result.keys()):

                    result[word] += 1

                else:

                    result[word] = 1

        del result['']

        df = pd.DataFrame(result, index=[0]).T

        df.to_csv("result3.csv")

        r.close()




if __name__ == '__main__':

    # question1()

    question2()

    # question3()