文本内容提取与统计-----文件和数据格式化

最新推荐文章于 2023-03-25 10:26:00 发布

工程人永远在路上

最新推荐文章于 2023-03-25 10:26:00 发布

阅读量1.1k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/the_Milky/article/details/113383838

版权

该博客主要探讨了如何对文本文件进行字符频率统计。针对三个问题，分别讲述了去除标点符号并统计最高频率的中文字符，按频次高低输出前10个最频繁字符，以及对所有字符按频次排序并保存结果的方法。

摘要由CSDN通过智能技术生成

问题1：

对小女孩.txt文件进行字符频率统计，输出频率最高的中文字符（不包括标点符号）及其频率，将输出结果保存在以"PY001.txt"命名的文件夹下，字符与频率之间采用英文冒号":"分隔。
小女孩.txt的文件内容如下：
在这里插入图片描述
解题思路：由于需要对文本内容中的汉字进行提取，所以首先应该考虑如何将这些标点符号除去，然后将剩下的汉字进行统计其出现的频率，所以可以将这些标点符号存放在一个变量中，然后进行遍历和条件限制可以实现。

代码实现

fi=open("小女孩.txt","r")#打开小女孩.txt文本,r为只读模式
fo = open("PY001.txt","w")#保存文件的名称。打开并且以写的模式 进行修改内容
txt=fi.read()#以读的方式将处理的文本保存到变量txt中
d = {
   }#定义一个字典
excude="，。！？、（）【】《》<>=：+-*———“”"#存放标点符号
for word in txt:#遍历文本内容
    if word in excude:#如果word为标点符号，则跳过
        continue
    else:#如果word不是标点符号，则以字典的方式进行统计
        d[word]=d.get<

最低0.47元/天解锁文章

工程人永远在路上

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

工程人永远在路上 CSDN认证博客专家 CSDN认证企业博客

码龄4年

213: 原创

24万+: 周排名

57万+: 总排名

13万+: 访问

: 等级

2487: 积分

62: 粉丝

75: 获赞

44: 评论

280: 收藏

私信

关注

热门文章

分类专栏

Java工程师研学之路 4篇

最新评论

vector的常见用法详解
洛酷酷: 哥们（6）里面代码中的erase打成earse了
vector的常见用法详解
Jking-ac: erase
【02-Java Web先导课】-Tomcat服务器的下载与安装
CSDN-Ada助手: 非常感谢您分享关于Tomcat服务器的下载与安装的经验，这对于正在学习Java Web开发的初学者来说非常有帮助！我们期待您更多关于Java Web的博客，比如 "如何使用Servlet实现动态网页" 或 "JSP页面实现数据动态绑定的实现方法" 等。期待您的精彩分享！ 2023年博客之星「城市赛道」年中评选已开启（https://activity.csdn.net/creatActivity?id=10470&utm_source=blog_comment_city ），博主的原力值在所在城市已经名列前茅，持续创作就有机会成为所在城市的 TOP1 博主（https://bbs.csdn.net/forums/blogstar2023?typeId=3152981&utm_source=blog_comment_city），更有丰厚奖品等你来拿~。
鸡兔同笼---动物最小与最大区间问题
m0_75244715: int a; char*p="数据错误"; scanf("%d",&a); if(a%2!=0 && a<4) printf("%s\n",*p); else if("a%4!=0"){ printf("%d\n",a/2); printf("%d\n",a/4+1);} else { printf("%d\n",a/2); printf("%d\n",a/3); } 能帮我看看吗，为什么我输入6输出2 2
太阳花的绘制
hvhcg: 我也想问一下太阳花的内角是怎么计算的

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

工程人永远在路上 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。