python中list 和 dict 效率的一次实践

最新推荐文章于 2021-07-06 11:53:41 发布

int_gavin

最新推荐文章于 2021-07-06 11:53:41 发布

阅读量2.6k

点赞数

分类专栏：工作文章标签： python

本文链接：https://blog.csdn.net/hh289211972/article/details/51965503

版权

工作专栏收录该内容

10 篇文章 0 订阅

订阅专栏

业务场景：

有上亿条的数据入库解析并且入库到sqlserver中去，所以每次优化一秒钟，可能对入库的性能就能提升一天。

python语句的优化，里边有对list数据去重的代码如下：

    object_id_set = []
    remove_objects = []
    for object in objects:
        try:
            if object['object_id'] in object_id_set:
                remove_objects.append(object)
            else:
                object_id_set.append(object['object_id'])
        except Exception as e:
            rh_utils.rh_logger.exception('filter object error: {0}, object: {1}'.format(e, object))

    for remove_object in remove_objects:
        objects.remove(remove_object)

修改点就是把 object_id_set 变成 dict： {}

object_id_set = {}
    remove_objects = []
    for object in objects:
        try:
            if object['object_id'] in object_id_set:
                remove_objects.append(object)
            else:
                object_id_set[object['object_id']] = 1
        except Exception as e:
            remove_objects.append(object)
            rh_utils.rh_logger.exception('filter object error: {0}, object: {1}'.format(e, object))

    for remove_object in remove_objects:
        objects.remove(remove_object)

当过滤的objects的数目达到1万的时候，时间上面方式的时间居然达到了2s，不可接受。改成下面方法之后变成0.1s的样子。

看来对list进行 in 操作应该是遍历了整个 list的复杂度为 O(n), 而dict大概有类似hash的东西保证查询的复杂度为 O(1).

int_gavin

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python中list 和 dict 效率的一次实践

业务场景：有上亿条的数据入库解析并且入库到sqlserver中去，所以每次优化一秒钟，可能对入库的性能就能提升一天。 python语句的优化，里边有对list数据去重的代码如下： object_id_set = [] remove_objects = [] for object in objects: try:
复制链接

扫一扫