零基础Python——对txt文本的词频统计
目录
一、环境
提示:环境为百度AI Studio中项目环境。
网址链接:https://aistudio.baidu.com/aistudio/index
Python版本:python 3.7
框架版本:PaddlePaddle 2.0.0
CPU:2
RAM:8GB
磁盘:100GB
二、需求描述
统计英语6级试题(文本路径./artical.txt)中所有单词的词频,并返回一个如下样式的字典:{'and':100,'abandon':5}
英语6级试题的文本部分截图:
处理要求:
(a) '\n’是换行符,需要删除。
(b) 标点符号需要处理:
[’.’, ‘,’, ‘!’, ‘?’, ‘;’, ‘’’, ‘"’, ‘/’, ‘-’, ‘(’, ‘)’]
(c ) 阿拉伯数字需要处理:
[‘1’,‘2’,‘3’,‘4’,‘5’,‘6’,‘7’,‘8’,‘9’,‘0’]
(d) 注意大小写 一些单词由于在句首,首字母大写了。需要把所有的单词转成小写。
处理方法:'String'.lower()
三、排序代码
(一)按字母a-z排序
1.文本读取
def get_artical(artical_path):
with open(artical_path) as fr:
data = fr.read()
return data
get_artical('./artical.txt')