8.5 中文词频统计(project)

Ssaty.

于 2023-06-06 23:53:48 发布

阅读量444

点赞数 1

分类专栏： Educoder实训文章标签：数学建模

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Junds0/article/details/131078410

版权

Educoder实训专栏收录该内容

1398 篇文章 3844 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

该博客介绍了一个项目，通过多个步骤实现中文文本的词频统计。首先，读取文件并切分中文文本，然后统计词频，去除单字词和停用词，最后输出词频最高的元素。主要涉及的工具有jieba库和停用词文件。

摘要由CSDN通过智能技术生成

第1关：读文件

任务描述
本关任务：编写一个能读文件到字符串小程序。

一般来说，一篇文章的最重要的内容会反复出现，所以词频可以表示文章的重点，本项目将训练统计文件中的文本词频的能力。

编程要求
根据提示，输入一个正整数n，在右侧编辑器补充代码，将文件中的文本读取为字符串，并输出前n个字符。
二十大报告.txt

测试说明
平台会对你编写的代码进行测试：

测试输入：
15；
预期输出：
高举中国特色社会主义伟大旗帜

开始你的任务吧，祝你成功！

def read_txt(file):
    with open(file,

了解本专栏

超级会员免费看

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
8.5 中文词频统计(project)

根据提示，输入一个正整数n，在右侧编辑器补充代码，将文件中的文本读取为字符串，利用jieba库的精确模式将文本切分为字符串，将无实质意义的单字符元素和停用词文本中存在的元素去掉，统计长度大于1的每个字符串出现的频率，存储为字典类型，输出词频最高的元素为二元组的列表前n项。根据提示，输入一个正整数n，在右侧编辑器补充代码，将文件中的文本读取为字符串，利用jieba库的精确模式将文本切分为字符串，统计每个字符串出现的频率，存储为字典类型，输出词频最高的元素为二元组的列表前n项。
复制链接

扫一扫

专栏目录

Ssaty. CSDN认证博客专家 CSDN认证企业博客

码龄4年

1456: 原创

1万+: 周排名

5929: 总排名

198万+: 访问

: 等级

1万+: 积分

9721: 粉丝

2518: 获赞

439: 评论

5270: 收藏

私信

关注

热门文章

分类专栏

最新评论

课堂练习6.2：对字符设备的访问
随缘的散句: 朋友找到了吗？
实验5 多表连接查询
CSDN-Ada助手: 推荐 MySQL入门技能树：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql
实验5 多表连接查询
猫头虎: 🌈🐅🔖🖥️ 条理清晰，内容详尽，这样的博客不多见！猫头虎在线点赞！🌌
问题求解与实践-简单数值计算（二）
Alpha_Go_Nine: 有12测试集，只能过7个
Python第四章作业（初级）
2401_84287968: def print_hi_human(): # 函数名用小写字母 """文档注释，双引号，说明函数的参数、功能和返回值等。定义一个名为print_hi_human的无参数函数，其功能是打印一句问候语，这个函数没有return语句，即没有返回值，或者说其返回值为None。 >>>

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Ssaty. 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。