揭秘vector的魔法：push_back()的均摊O(1)复杂度之谜

何综瑞

于 2024-07-19 22:42:53 发布

阅读量233

点赞数 2

文章标签：算法

本文链接：https://blog.csdn.net/m0_72877724/article/details/140561124

版权

vector是C++中最常用的容器之一，其push_back()操作被广泛使用。虽然单次push_back()操作的时间复杂度可能是O(n)，但从长期来看，它的均摊复杂度却是O(1)。这听起来可能有点矛盾，让我们一步步解开这个谜题。

vector的内存分配策略

vector在内部使用一个动态数组来存储元素。当空间不足时，vector会重新分配一个更大的内存块，并将所有元素复制到新的位置。这个过程是耗时的，复杂度为O(n)。

容量增长策略

大多数vector实现都采用一种指数增长策略。通常，每次需要扩容时，新的容量会是原来的1.5倍或2倍。

均摊分析

均摊分析考虑的是一系列操作的平均成本，而不是单个操作的最坏情况。让我们通过一个例子来理解：

假设vector的初始容量为1，每次扩容都将容量翻倍。我们执行n次push_back()操作：

第1次：直接插入，成本1
第2次：需要扩容，复制1个元素，成本2
第3-4次：直接插入，每次成本1
第5次：需要扩容，复制4个元素，成本5
第6-8次：直接插入，每次成本1
第9次：需要扩容，复制8个元素，成本9
…

总成本 = 1 + 2 + 1 + 1 + 5 + 1 + 1 + 1 + 9 + …
< n + n + n/2 + n/4 + n/8 + …
< 3n

因此，n次操作的总成本小于3n，平均每次操作的成本小于3，即O(1)。

代码示例

让我们通过一个简化的vector实现来说明这个过程：

#include <iostream>
#include <chrono>

template<typename T>
class SimpleVector {
private:
    T* data;
    size_t size;
    size_t capacity;

    void resize() {
        // 将容量翻倍
        size_t newCapacity = capacity == 0 ? 1 : capacity * 2;
        T* newData = new T[newCapacity];

        // 复制旧数据到新内存
        for (size_t i = 0; i < size; ++i) {
            newData[i] = data[i];
        }

        // 释放旧内存
        delete[] data;

        // 更新数据指针和容量
        data = newData;
        capacity = newCapacity;
    }

public:
    SimpleVector() : data(nullptr), size(0), capacity(0) {}

    ~SimpleVector() {
        delete[] data;
    }

    void push_back(const T& value) {
        if (size == capacity) {
            resize();  // 如果没有足够空间，进行扩容
        }
        data[size++] = value;  // 在末尾添加新元素
    }

    size_t getSize() const { return size; }
    size_t getCapacity() const { return capacity; }
};

int main() {
    SimpleVector<int> vec;
    const int n = 1000000;  // 进行100万次push_back操作

    auto start = std::chrono::high_resolution_clock::now();

    for (int i = 0; i < n; ++i) {
        vec.push_back(i);

        // 每当size是2的幂时，打印当前的size和capacity
        if ((i & (i - 1)) == 0) {
            std::cout << "Size: " << vec.getSize() 
                      << ", Capacity: " << vec.getCapacity() << std::endl;
        }
    }

    auto end = std::chrono::high_resolution_clock::now();
    std::chrono::duration<double> diff = end - start;

    std::cout << "Time taken for " << n << " push_back operations: " 
              << diff.count() << " seconds" << std::endl;
    std::cout << "Average time per operation: " 
              << (diff.count() / n) * 1e9 << " nanoseconds" << std::endl;

    return 0;
}

这个例子展示了vector的基本工作原理：

当没有足够空间时，vector会重新分配更大的内存。
容量呈指数增长，这可以从输出中看到。
尽管有些操作（扩容时）花费的时间较长，但平均每次操作的时间仍然很短。
实际影响

理解push_back()的均摊复杂度对于编写高效的代码很重要：

它解释了为什么在大多数情况下，使用push_back()添加元素比预先分配内存然后使用下标赋值更有效。
它说明了为什么vector通常比list更受欢迎，尽管list的插入操作理论上更快。
它强调了适当选择初始容量的重要性，以减少不必要的重新分配。

结论：
vector的push_back()操作展示了计算机科学中一个有趣的现象：通过巧妙的设计，我们可以在保持高效率的同时提供方便的接口。理解均摊分析不仅有助于我们更好地使用vector，还能启发我们在设计其他数据结构和算法时如何权衡不同的因素。

何综瑞

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
揭秘vector的魔法：push_back()的均摊O(1)复杂度之谜

vector的push_back()操作展示了计算机科学中一个有趣的现象：通过巧妙的设计，我们可以在保持高效率的同时提供方便的接口。虽然单次push_back()操作的时间复杂度可能是O(n)，但从长期来看，它的均摊复杂度却是O(1)。当空间不足时，vector会重新分配一个更大的内存块，并将所有元素复制到新的位置。通常，每次需要扩容时，新的容量会是原来的1.5倍或2倍。均摊分析考虑的是一系列操作的平均成本，而不是单个操作的最坏情况。因此，n次操作的总成本小于3n，平均每次操作的成本小于3，即O(1)。
复制链接

扫一扫