词频统计器--python dict

最新推荐文章于 2024-04-16 08:48:25 发布

遥不可及梦

最新推荐文章于 2024-04-16 08:48:25 发布

阅读量1.3k

点赞数

分类专栏： python 文章标签： python dict 字频统计

本文链接：https://blog.csdn.net/u013246898/article/details/78948852

版权

python 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

吐槽

平时就比较常用的统计器老是写的很low，最近看到了一个比较优雅的写法记录一下。

需求

想对jieba.cut返回的分词列表进行字频统计。

代码

优化前

def gen_counter_dict(type_list):
    type_dict = {}
    for type in type_list:
        if type in type_dict.keys():
            type_dict[type] += 1
        else:
            type_dict[type] = 1
    return type_dict

优化后

seg_list = jieba.cut(content, cut_all=False)#默认精准模式
counter = dict()
for seg in seg_list:
    counter[seg] = counter.get(seg, 1) + 1 
    #get()获取key为seg的value，若key不存在不会报keyerror返回一个默认值，这里设为1
counter_sorted = sorted(counter.items(), key=lambda value:value[1], reverse=True)

简要分析

dict字典取值的方式一般两种:
1.1 dict[key],当key不存在的时候，会报keyerror的异常
2.1 dict.get(key, 1), 当可以不存在的时候，会返回一个默认值这里就是1
sorted函数一般是返回一个排序后的列表，对于dict的排序，会返回一个元组的列表，lambda表达是定义了排序比较的参照点。reverse定义是否逆序，默认是从小到大排。reverse=True即从大到小排

遥不可及梦

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
词频统计器--python dict

吐槽平时就比较常用的统计器老是写的很low，最近看到了一个比较优雅的写法记录一下。需求想对jieba.cut返回的分词列表进行字频统计。代码优化前def gen_counter_dict(type_list): type_dict = {} for type in type_list: if type in type_dict.keys():
复制链接

扫一扫