关于红楼梦Python文本分析

最新推荐文章于 2025-03-14 20:32:32 发布

总写bug的小张

最新推荐文章于 2025-03-14 20:32:32 发布

阅读量3.5k

点赞数 5

文章标签： python 开发语言

本文链接：https://blog.csdn.net/m0_66424509/article/details/129699758

版权

该文详细展示了对《红楼梦》文本的处理过程，包括去除特殊字符、停用词过滤，以及使用pypseg进行词性标注和词频统计。接着，文章重点分析了主要人物的词频，并生成了词频词性和人物出场次数的可视化图表，最后还创建了词云图来直观展现高频词汇。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 获取小说文本读取文件

# 获取小说文本
# 读取文件
fn = open("prepare\\红楼梦_曹雪芹.txt", encoding="utf-8")
string_data = fn.read()  # 读出整个文件
fn.close()  # 关闭文件

2.对文本进行处理

# 文本预处理
pattern = re.compile(u'\t|\n|\.|-|:|;|\)|\(|\?|"')  # 定义正则表达式匹配模式
txt = re.sub(pattern, '', string_data)  # 将符合模式的字符去除
print('预处理完毕')


# 停词文档
def stopwordslist(filepath):
    stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
    return stopwords
stopwords = stopwordslist('D:\\Python studybag\\prepare\\tingyong.txt')
excludes = {'之','其','方','即','因','仍','故','尚','乃','呀','吗','咧','罢','咧','啊','罢','了','么',
            '或', ' 亦', '于', ' 皆', '的', '着', '一' , '不', '把', '让','向', '往', '是' , '在', '别',
            '好', '可', '便', '就',' 但','越','再','更', '比','很','偏',
            '那里','如今','一个','我们','你们','起来','姑娘','这里','二人','说道',
            '知道','如何','今日','什么','于是','还有','出来','他们','众人','奶奶',
            '自己','一面','太太','只见','怎么','两个','没有','不是','不知','这个',
            '听见','这样','进来','告诉','东西','咱们','就是','如此','回来','大家',
            '只是','老爷','只得','丫头','这些','不敢','出去','所以','不过','姐姐',
            '的话','不好','鸳鸯','一时','过来'