1.有一段文字:
para=‘This is a test. Beautiful is better than ugly. Explicit is better than implicit. Simple is better than complex. Now is better than never. Is this a complex thing?’。
以及一个关键词列表:keys=[‘this’,‘better’,‘is’,‘complex’]。
关键词占比是比较常用的一种文本分类标准,可以通过以下步骤得到:
- 对para进行预处理:para中不同大小写的单词看成同一个,如is和Is看成同一个关键词is,可将para串中的英文字母都变为小写字母;为了方便分词,可将para中的".“和”?"替换为空格。为了不改变原字符串para,将经过上述预处理后的字符串用tmppara存放。
- 对tmppara字符串进行分词,得到单词列表words。对keys中的每个关键词,根据列表words,创建每个关键词的数量统计字典keysDict。
- 计算出所有关键词在para中的长度之和keysLen。
- 输出para、keysDict及关键词占比。关键词占比,即:keysLen/para总长度。
按照上述步骤编写程序。注意:程序中的变量均采用上述步骤中规定的名称。
请在【python数据分析之禅】gzh后台,回复‘作业’获取答案