Python 统计词频

本文介绍了使用Python统计英文书籍词频的方法,指出了解高频词汇对于阅读理解的重要性,并提供了具体的Python代码实现。
摘要由CSDN通过智能技术生成

我在看英文书的时候,会先去统计一下词频,看看哪些是比较单词是出现比较多的。

另外就是,把出现最多的那一批单词优先搞懂的话,那么你再去阅读的时候,就会轻松很多了 —— 因为高频出现的单词你几乎已经全扫清了。

WX20231003-141614@2x.png

具体的 Python 代码如下:

import jieba
import nltk
import xlwt

# 读取 txt 文档
with open('a.txt', 'r', encoding='utf-8') as f:
    text = f.read()
    
# 排除掉不想要统计次数的单词
excludes = {"I","love","java"}

#去除特殊符号
def getText():
    # 读取文件,返回 txt
    txt = open("a.txt", "r", encoding='utf-8').read()   
    # 转为小写
    txt = txt.lower()      
    #将文本中特殊字符替换为空格
    for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_‘{|}~':
        txt = txt.replace(ch, " ")   
    return txt

# 使用 jieba 库进行分词
words = jieba.lcut(getText())

# 去除单词长度在 7 个以下的,去除之前定义的,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值