零基础Python——对txt文本的词频统计

本文档介绍了如何使用Python 3.7在百度AI Studio环境中对txt文本进行词频统计。首先,文章详细阐述了环境配置,接着说明了需求,包括删除换行符、处理标点符号和数字、统一转换为小写。然后,提供了按字母顺序排序和按词频排序的代码实现。最后,提到了内容来源于相关课程作业。
摘要由CSDN通过智能技术生成

零基础Python——对txt文本的词频统计


一、环境

提示:环境为百度AI Studio中项目环境。
网址链接:https://aistudio.baidu.com/aistudio/index

Python版本:python 3.7
框架版本:PaddlePaddle 2.0.0

CPU:2
RAM:8GB
磁盘:100GB


二、需求描述

统计英语6级试题(文本路径./artical.txt)中所有单词的词频,并返回一个如下样式的字典:{'and':100,'abandon':5}

英语6级试题的文本部分截图:英语6级试题的文本部分截图

处理要求:
(a) '\n’是换行符,需要删除。

(b) 标点符号需要处理:
[’.’, ‘,’, ‘!’, ‘?’, ‘;’, ‘’’, ‘"’, ‘/’, ‘-’, ‘(’, ‘)’]

(c ) 阿拉伯数字需要处理:
[‘1’,‘2’,‘3’,‘4’,‘5’,‘6’,‘7’,‘8’,‘9’,‘0’]

(d) 注意大小写 一些单词由于在句首,首字母大写了。需要把所有的单词转成小写。
处理方法:'String'.lower()


三、排序代码

(一)按字母a-z排序

1.文本读取

def get_artical(artical_path):
    with open(artical_path) as fr:
        data = fr.read()
    return data

get_artical('./artical.txt')

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值