关闭

CPython数据结构相关操作的时间复杂度

79人阅读 评论(0) 收藏 举报

1. CPython和Python

    相信许多和博主一样的Python菜鸟在看到CPython的时候都会产生一个疑问:CPython和Python到底有啥区别?实际上CPython通常用于指代用C语言实现的Python。相应的,也存在其它语言实现的Python。比如:Jython,IronPython和PyPy,它们分别由Java,C#和RPython实现。我们从python.org下载的Python解释器就是用C语言实现的,也就是CPython。换言之,Python是编程语言,而CPython是此编程语言的实现方式。

    这篇博文中介绍的Python操作的时间复杂度都是基于CPython的,其它的Python实现在性能上会和CPython有些许不同。不过可以大胆的认为CPython不会比它们快过O(log n)倍。以下时间复杂度的介绍中,n指数据结构中的数据规模,k指参数值或者参数中的元素数量。


2. List

    平均情况下,所有参数都是随机均匀产生的。List最大的开销来自于内存分配大小的改变,以及插入和删除操作。因为这些情况下,list中的许多元素都涉及到移动操作。如果需要在两端增删元素,可以考虑使用collections.deque。



3. Collecions.deque

    此数据结构实际上是一个双向链表实现的双端队列,即元素的弹出,插入和删除可在两端进行。相应的,两端的操作会较为高效,而中间元素的操作则会比较慢。



4. Set

    集合的实现和字典差不多。


    

    上述表格中,值得一提的是集合求差集的两种操作。假设我们有两个集合s和t,第一种方式是s-t (或者s.difference(t)),第二种方式是s.difference_update(t)。这种方法的时间复杂度依赖的变量是不一样的。前者扫描整个集合s,然后将其中不在t中的元素放入新创建的一个集合变量中。因为集合的查找算法基于Hash表的,所以只有O(1)的时间复杂度,因此整个操作最耗时的部分是对集合s的扫描,复杂度为O(len(s))。对第二种算法,其本质是扫描t集合,然后将t中的每个元素从s中删除。整个过程不产生额外的内存需求,时间复杂度是O(len(t))。选用那种方式求差集在于两个集合的长度和是否需要产生新的集合。


5. Dictionary

    对于字典,平均性能是针对hash函数足够健壮的情形而言,也就是很少存在hash冲突。相应的,最坏的情况都是在冲突比较频繁的情况下产生的。


    

值得一提的是,此处最坏情况下的n并非是指当前字典的大小,而是从创建到目前为止,字典曾经达到的最大大小。比如,如果字典有N个元素,删除N-1个元素后,字典大小仍为N,直到新的插入操作产生。


6. 参考文献

https://wiki.python.org/moin/TimeComplexity

0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:82次
    • 积分:13
    • 等级:
    • 排名:千里之外
    • 原创:1篇
    • 转载:0篇
    • 译文:0篇
    • 评论:0条
    文章存档