python作业：输出para、keysDict及关键词占比。关键词占比，即：keysLen/para总长度

最新推荐文章于 2023-02-20 11:21:37 发布

小bird

最新推荐文章于 2023-02-20 11:21:37 发布

阅读量673

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/weixin_42241770/article/details/106087525

版权

python 专栏收录该内容

80 篇文章 293 订阅

订阅专栏

1.有一段文字：
para=‘This is a test. Beautiful is better than ugly. Explicit is better than implicit. Simple is better than complex. Now is better than never. Is this a complex thing?’。
以及一个关键词列表：keys=[‘this’,‘better’,‘is’,‘complex’]。

关键词占比是比较常用的一种文本分类标准，可以通过以下步骤得到：

对para进行预处理：para中不同大小写的单词看成同一个，如is和Is看成同一个关键词is，可将para串中的英文字母都变为小写字母；为了方便分词，可将para中的".“和”?"替换为空格。为了不改变原字符串para，将经过上述预处理后的字符串用tmppara存放。
对tmppara字符串进行分词，得到单词列表words。对keys中的每个关键词，根据列表words，创建每个关键词的数量统计字典keysDict。
计算出所有关键词在para中的长度之和keysLen。
输出para、keysDict及关键词占比。关键词占比，即：keysLen/para总长度。
按照上述步骤编写程序。注意：程序中的变量均采用上述步骤中规定的名称。

请在【python数据分析之禅】gzh后台，回复‘作业’获取答案

小bird

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python作业：输出para、keysDict及关键词占比。关键词占比，即：keysLen/para总长度

1.有一段文字：para=‘This is a test. Beautiful is better than ugly. Explicit is better than implicit. Simple is better than complex. Now is better than never. Is this a complex thing?’。以及一个关键词列表：keys=[‘this’,‘better’,‘is’,‘complex’]。关键词占比是比较常用的一种文本分类标准，可以通过以下步
复制链接

扫一扫