python,文本分析

一:文件读取(默认读取.py文件所在的目录)

记得将当前目录设置为文件目录(spyder编译器的右上角,本人用spyder)

filename = input('请输入你的文件名---------------        ')
file = open(filename + '.txt')

try:
    for eachline in file:
        print(eachline)
except:
    print('打开文件出错')
finally:
        file.close()    

二:处理文本

  1. 打开文件(我打开的是《最后一片叶子》的英文版)
from collections import Counter       
        
f = open('Leaf.txt')
eassy = f.read()
  1. 符号替换(方便用split()函数分割)
ch = '"!#?!.。-,'
for i in ch:
	eassy = eassy.replace(i,' ')
eassy = eassy.split()

这里要说明的是,用split()分开之后eassy就是一个列表了

  1. 统计英文单词个数和出现频率:
eassy = dict(Counter(eassy))#调用Counter库统计eassy列表
eassy = list(eassy.items())   #把字典变回列表,这对后面的统计比较好

  1. 列表排序
eassy.sort(key = lambda x:x[1],reverse = True)  #以列表中每个元素中索引为1的值排序(倒序)
  1. 打印英文单词个数和出现频率
    打印找出文章中最常用的20单词
    将最常见的200个输写入文件
print('前20个次数最多的单词')
print(eassy[0:20])

print('使用的单词数量')
print(len(eassy))

print('有多少单词至少使用了5次')
#print(type(eassy[0]))
#print(eassy[0][1])
for i in range(len(eassy)):
    if eassy[i][1] <5:
        ind = i
        break
print(len(eassy[0:ind]))    

#将最常见的200个输写入文件
if len(eassy)>=200:
    with open('word_count.txt','w') as f:
    
        for i in range(200):
            line = str(eassy[i])
            f.writelines(line+'\n')
    
    
    
    


结果展示:

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

鄢广杰

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值