首先是英文的词频统计,不需要jieba中文分词库,只需要注意大小写转换,特殊标点符号删除,而后利用字典!
split函数,字典的get函数添加映射数据
对于《三国演义》进行中文分词统计,得到人物出场次数最多的数据
代码 。。。
笔记,Jieba库 需要使用open打开txt文件,并读取其中的文本
jieba的lcut方法分词,(jieba的三种分词方式) 然后,
使用字典,映射 人名:出现次数 方式作为其中元素
使用for ...in...循环遍历整个txt文本加入字典,同样的循环遍历字典输出打印
元组不方便统计,需要改为list列表方式sort排序,其中有一个lamda函数,以键值(即出现次数)排序 然后打印输出
得到了不同的词频,但是包括了很