分章节统计词频（zip函数的应用）

最新推荐文章于 2024-08-10 23:14:03 发布

Triumph19

最新推荐文章于 2024-08-10 23:14:03 发布

阅读量409

点赞数

分类专栏： python二级考题 python错误总结文章标签： python 正则表达式 zip

本文链接：https://blog.csdn.net/Triumph19/article/details/125022216

版权

python二级考题同时被 2 个专栏收录

53 篇文章 5 订阅

订阅专栏

python错误总结

46 篇文章 5 订阅

订阅专栏

以c12文件夹下面的“八十天环游世界.txt”为例

正则表达式获取标题和区分段落

import re
f = open("八十天环游地球.txt",'r',encoding='utf8')
lines = f.read()
title = re.findall('(第.{1,3}章.*)\\n',lines)
parts = re.sub('(第.{1,3}章.*)','@',lines) #将章节题目替换成一个标记符号
part = parts.split('@') #根据标记符号切分全文
part = part[1:] #因为切分后part[0]是一个空字符，这样切分是为了让标题和段落一一对应

zip函数提取获取每一个章节的词频

这里是获取每章出现最多的词频。

import jieba
for i,j in zip(title,part):
    counts = {}
    words = jieba.lcut(i + j)
    for word in words:
        if word in '\n ':
            continue
        elif len(word) >=2:
            counts[word] = counts.get(word,0) + 1
    lt = list(counts.items())
    lt.sort(key=lambda x: x[1],reverse=True)
    charter = re.findall('(第.*章)',i)[0] 
    print("{} {} {}".format(charter,lt[0][0],lt[0][1]))

第一章 福克 26
第二章 路路通 18
第三章 福克 27
第四章 福克 28
第五章 福克 31
第六章 克斯 21
第七章 领事 15
第八章 克斯 15
第九章 先生 18
第十章 福克 16
第十一章 福克 40
第十二章 他们 23
第十三章 他们 36
第十四章 路路通 18
第十五章 福克 42
第十六章 克斯 23
第十七章 路路通 29
第十八章 福克 21
第十九章 路路通 50
第二十章 先生 43
第二十一章 福克 39
第二十二章 路路通 28
第二十三章 演员 26
第二十四章 先生 26
第二十五章 福克 43
第二十六章 火车 24
第二十七章 一个 19
第二十八章 路路通 30
第二十九章 福克 30
第三十章 福克 32
第三十一章 雪橇 36
第三十二章 福克 25
第三十三章 福克 52
第三十四章 福克 22
第三十五章 福克 39
第三十六章 福克 23
第三十七章 福克 25

Triumph19

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分章节统计词频（zip函数的应用）

以c12文件夹下面的“八十天环游世界.txt”为例正则表达式获取标题和区分段落import ref = open("八十天环游地球.txt",'r',encoding='utf8')lines = f.read()title = re.findall('(第.{1,3}章.*)\\n',lines)parts = re.sub('(第.{1,3}章.*)','@',lines) #将章节题目替换成一个标记符号part = parts.split('@') #根据标记符号切分全文part.
复制链接

扫一扫

专栏目录