关于红楼梦Python文本分析

该文详细展示了对《红楼梦》文本的处理过程,包括去除特殊字符、停用词过滤,以及使用pypseg进行词性标注和词频统计。接着,文章重点分析了主要人物的词频,并生成了词频词性和人物出场次数的可视化图表,最后还创建了词云图来直观展现高频词汇。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.  获取小说文本  读取文件

# 获取小说文本
# 读取文件
fn = open("prepare\\红楼梦_曹雪芹.txt", encoding="utf-8")
string_data = fn.read()  # 读出整个文件
fn.close()  # 关闭文件

2.对文本进行处理 

# 文本预处理
pattern = re.compile(u'\t|\n|\.|-|:|;|\)|\(|\?|"')  # 定义正则表达式匹配模式
txt = re.sub(pattern, '', string_data)  # 将符合模式的字符去除
print('预处理完毕')


# 停词文档
def stopwordslist(filepath):
    stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
    return stopwords
stopwords = stopwordslist('D:\\Python studybag\\prepare\\tingyong.txt')
excludes = {'之','其','方','即','因','仍','故','尚','乃','呀','吗','咧','罢','咧','啊','罢','了','么',
            '或', ' 亦', '于', ' 皆', '的', '着', '一' , '不', '把', '让','向', '往', '是' , '在', '别',
            '好', '可', '便', '就',' 但','越','再','更', '比','很','偏',
            '那里','如今','一个','我们','你们','起来','姑娘','这里','二人','说道',
            '知道','如何','今日','什么','于是','还有','出来','他们','众人','奶奶',
            '自己','一面','太太','只见','怎么','两个','没有','不是','不知','这个',
            '听见','这样','进来','告诉','东西','咱们','就是','如此','回来','大家',
            '只是','老爷','只得','丫头','这些','不敢','出去','所以','不过','姐姐',
            '的话','不好','鸳鸯','一时','过来'
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值