python作业:输出para、keysDict及关键词占比。关键词占比,即:keysLen/para总长度

1.有一段文字:
para=‘This is a test. Beautiful is better than ugly. Explicit is better than implicit. Simple is better than complex. Now is better than never. Is this a complex thing?’。
以及一个关键词列表:keys=[‘this’,‘better’,‘is’,‘complex’]。

关键词占比是比较常用的一种文本分类标准,可以通过以下步骤得到:

  1. 对para进行预处理:para中不同大小写的单词看成同一个,如is和Is看成同一个关键词is,可将para串中的英文字母都变为小写字母;为了方便分词,可将para中的".“和”?"替换为空格。为了不改变原字符串para,将经过上述预处理后的字符串用tmppara存放。
  2. 对tmppara字符串进行分词,得到单词列表words。对keys中的每个关键词,根据列表words,创建每个关键词的数量统计字典keysDict。
  3. 计算出所有关键词在para中的长度之和keysLen。
  4. 输出para、keysDict及关键词占比。关键词占比,即:keysLen/para总长度。
    按照上述步骤编写程序。注意:程序中的变量均采用上述步骤中规定的名称。
请在【python数据分析之禅】gzh后台,回复‘作业’获取答案
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值