std::list 中 size() 的时间复杂度

很奇怪的,或者说是一个不应成为问题的问题...
std::list 的 size() 方法时间复杂度是多少?第一感觉应该是 O(1) 没错吧,多一个变量用于储存链表长度应该是很轻易的事情。于是有了下面这段代码:

#include<iostream>
#include<list>
#include<ctime>
using namespace std;

int main ( ) {
    time_t start, finish;
    int num = 0;
    list<int> coll;

    start = clock ( );
    for ( int i= 0;i< 10000;++i ) {
        coll. push_back (i );
        num += coll. size ( );
    }
    finish = clock ( );
    cout<<finish - start<<  num:"<<num<<endl;

    coll. clear ( );
    start = clock ( );
    for ( int i= 0;i< 10000;++i ) {
        coll. push_back (i );
    }
    finish = clock ( );
    cout<<finish - start<<endl;
    return 0;
}

对两个循环分别计时比较。前一个循环只比后一个多了一句 num += coll.size(); 为了使编译器确实生成 list::size() 的代码。
在 MinGW 5.1.4 中 (GCC 3.4.5) 编译结果运行如下:

450   num:50005000
10

可以看到,前一个循环居然比后一个多花了几乎 45 倍的时间...当我把循环次数从 10000 加到 100000 时程序半天没出结果...

由此有理由猜测 std::list 的 size() 方法难道是 O(N) 的?果然,在头文件中发现了这一段:

size_type
size ( ) const
{ return std:: distance (begin ( ), end ( ) ); }

 

直接调用 <algorithm> 算法库函数 distance() 计算元素个数……怪不得这么慢。然后又用 VS2008 (VC9.0)编译,结果如下:

30   num:50005000
60

奇怪的是前一个循环居然比后一个还快...不过至少知道 VS2008 (VC9.0)里的 size() 应该是 O(1) 的。同样查看了一下代码,如下:

size_type size ( ) const
    {    // return length of sequence
    return (_Mysize );
    }

_Mysize 是一个 size_type 类型的变量。疑问解决。不过又有了新问题:

--------------- 咱 -- 是 -- 分 -- 隔 -- 线 ------------------

为什么 GCC 里要把 list::size() 的复杂度搞成 O(N)?

一通搜索后终于看到有这样的讨论:关于 list::splice() 函数。

list 是链表结构,它的优势就在于可以 O(1) 的时间复杂度任意插入删除甚至拼接 list 片段(删除时可能不是,因为要释放内存),list::splice() 是一个很强大的功能,它可在任意位置拼接两个 list,这正是 list 的优势。如果我们在类内部以一个变量储存 list 的长度,那么 splice() 之后新 list 的长度该如何确定?这是一个很严峻的问题,如果要在拼接操作时计算拼接部分的长度,那么将把 O(1) 的时间变成 O(N),这么一来 list 相对 vector 的优势就消失殆尽。

面对这个问题,GCC 和 VC 的 STL 库作者们做了不同的选择。GCC 选择舍弃在 list 内部保存元素数量,而在 size() 时直接从头数到尾,这便出现了开头看到的 O(N) 时间才算出 size();相反,VC 中有了变量 _Mysize ,无论在 insert() erase() splice() 或是 push() pop() 时都需要对其做相应修改。在上面的两个试验中已经看出同样是 10000 个 push_back() 操作,VC 花的时间比较长,不过也仅仅是一个 inc 指令,差别很小就是了。上面几种会改变 list 内容的操作中,大部分对元素数量的影响只是 +1 或 -1,只有 splice() 需要计算拼接部分元素个数,这个差别就大了,咱还是继续用实验证明吧:

#include<iostream>
#include<list>
#include<ctime>
using namespace std;

int main ( ) {
    time_t start,finish;
    list<int> col;
    col. push_back ( 1 );
    col. push_back ( 10000 );

    list<int> col2;
    start = clock ( );
    for ( int i= 2;i< 10000;++i )
        col2. push_back (i );
    finish = clock ( );
    cout<<finish - start<<endl;

    int num = 0;
    start = clock ( );
    for ( int i= 0;i< 10000;++i ) {
        col. splice (++col. begin ( ),col2,++col2. begin ( ),--col2. end ( ) );
        num += * (++col. begin ( ) );
        col2. splice (++col2. begin ( ),col,++col. begin ( ),--col. end ( ) );
        num += * (++col2. begin ( ) );
    }
    finish = clock ( );
    cout<<finish - start<<  num:"<<num<<endl;
    return 0;
}

首先是 MinGW (GCC 3.4.5) 的结果:

10
 num:60000

可以看到 10000 次 push 是 10,相对的 20000 次 splice() 几乎没花时间 = =

然后是 VS2008 (VC9.0):

20
2714   num:60000

差别非常明显,花了2秒多才完成。当我把循环次数改成 100000 后 GCC 仍是眨眼间的事,VC 却长时间运行无结果……

怎么说呢,GCC 显然是追求效率至上,尽量体现出 list 的优势所在,不过我觉得这么一来倒不如干脆不提供 list 的 size() 方法,有需求的程序员可以自己维护一个变量记录长度,以免误认为 size() 是 O(1) 的而犯下严重错误。相对的 VC 强调功能性和整体效率,可能在实际中需要对链表一段内容做 splice() 操作的机会远远小于求 size() 的操作,所以舍弃前者而保留后者,不过要维护 _Mysize 其他相关函数中也增加了开销。一个见仁见智的问题,我觉得还是 GCC 的选择比较好,list 的优势应该保留,但能在 size() 函数处给个 warning 什么的就好了。

我想还有一个选择是这样:在 list 内部用一个 bool 变量指示当前内部 size 值是有效还是无效。在通常操作时 bool 保持 true,这样在 size() 时直接返回原值即可;在 splice() 后将此 bool 值置为 false 并不计算长度,直到最后又有需要 size() 时发现 bool 是 false 则从头再来一遍 distance() 并再将 bool 置为 true。暂时只想出这么一个算是折中的方法,基本上都能保持两边 O(1) 的效率,但相应其他各关于元素数量的函数内部都要多一个判断当前 size 值是有效还是无效并选择是否改变其值。反正总是不能非常完美

嘛...本来只是发现 size() 的效率问题,没想到却扯出这么一桩事出来...也算长知识了吧


http://blog.sina.com.cn/s/blog_476a25110100magc.html

  • 9
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 9
    评论
### 回答1: 以下是用C++代码实现拓扑排序的函数: ```c++ template <typename T, typename WGT_T> std::vector<typename std::graf<T, WGT_T>::size_type> topsort(const std::graf<T, WGT_T>& g) { std::vector<typename std::graf<T, WGT_T>::size_type> order; std::queue<typename std::graf<T, WGT_T>::size_type> q; std::vector<typename std::graf<T, WGT_T>::size_type> in_degree(g.num_vertices(), 0); for (typename std::graf<T, WGT_T>::size_type i = 0; i < g.num_vertices(); ++i) { for (auto& e : g.adj_list(i)) { ++in_degree[e.to()]; } } for (typename std::graf<T, WGT_T>::size_type i = 0; i < g.num_vertices(); ++i) { if (in_degree[i] == 0) { q.push(i); } } while (!q.empty()) { typename std::graf<T, WGT_T>::size_type u = q.front(); q.pop(); order.push_back(u); for (auto& e : g.adj_list(u)) { --in_degree[e.to()]; if (in_degree[e.to()] == 0) { q.push(e.to()); } } } return order; } ``` 该函数的输入参数为一个有向图 `g`,返回值为一个顶点序列,表示拓扑排序后的顶点访问顺序。算法思路如下: 1. 统计每个顶点的入度。遍历每个顶点的邻接表,将邻接表每个顶点的入度加1。 2. 将所有入度为0的顶点入队列。 3. 取出队列的第一个顶点,并将其加入拓扑排序结果序列。 4. 遍历该顶点的邻接表,将邻接表每个顶点的入度减1。如果减完之后某个顶点的入度变为0,则将该顶点入队列。 5. 重复步骤3和4,直到队列为空。 时间复杂度为 $O(V+E)$,其 $V$ 是顶点数,$E$ 是边数。 ### 回答2: 拓扑排序是一种用于有向图的算法,将图的顶点按照一种线性顺序进行排序。在拓扑排序,如果图存在从顶点 A 到顶点 B 的有向边,那么在排序结果,顶点 A 一定在顶点 B 之前。 下面是用 C++ 代码实现拓扑排序的示例: ```cpp #include <iostream> #include <vector> #include <queue> template <typename T> std::vector<T> topsort(const std::vector<std::vector<T>>& graph) { std::vector<T> sortedResult; std::vector<int> inDegree(graph.size(), 0); std::queue<T> zeroInDegreeQueue; // 计算每个顶点的入度 for (const auto& adjacentNodes : graph) { for (const auto& node : adjacentNodes) { inDegree[node]++; } } // 将入度为 0 的顶点加入队列 for (int i = 0; i < inDegree.size(); i++) { if (inDegree[i] == 0) { zeroInDegreeQueue.push(i); } } // 拓扑排序主循环 while (!zeroInDegreeQueue.empty()) { T currentNode = zeroInDegreeQueue.front(); zeroInDegreeQueue.pop(); sortedResult.push_back(currentNode); // 将所有与当前顶点相邻的顶点入度减 1 for (const auto& node : graph[currentNode]) { inDegree[node]--; // 如果某个顶点的入度降为 0,则将其加入队列 if (inDegree[node] == 0) { zeroInDegreeQueue.push(node); } } } // 如果排序后的结果包含图所有顶点,则返回排序结果,否则返回空数组表示有环 if (sortedResult.size() == graph.size()) { return sortedResult; } else { return std::vector<T>(); } } int main() { // 创建一个有向图 std::vector<std::vector<int>> graph = { {1, 2}, // 0 -> 1, 0 -> 2 {2, 3}, // 1 -> 2, 1 -> 3 {3}, // 2 -> 3 {4}, // 3 -> 4 {5}, // 4 -> 5 {5} // 5 -> 5 (自环) }; // 调用拓扑排序函数 std::vector<int> sortedResult = topsort(graph); // 输出排序结果 if (sortedResult.empty()) { std::cout << "The graph contains a cycle." << std::endl; } else { std::cout << "Topological Sort Result:"; for (const auto& node : sortedResult) { std::cout << " " << node; } std::cout << std::endl; } return 0; } ``` 以上代码使用邻接表表示有向图,并使用队列实现拓扑排序算法。首先计算每个顶点的入度,将入度为 0 的顶点加入队列,并在主循环不断处理队列的顶点,将其邻接顶点的入度减 1。最后,如果排序后的顶点数与图的顶点数相同,则返回排序结果;否则,说明存在环,返回空数组。 示例的有向图包含了一个自环(5 -> 5),即一个顶点指向自己。因为拓扑排序要求没有环,所以自环会导致拓扑排序无法进行,最后的结果会返回一个空数组。 ### 回答3: 拓扑排序是一种用于有向无环图(DAG)的排序算法。在拓扑排序,将图的节点按照一种线性顺序进行排序,使得对于任意的边 (u, v),节点 u 在节点 v 之前。 下面是C++代码实现拓扑排序的模板函数: ```cpp template <typename T, typename WGT_T> std::vector<typename std::graf<T, WGT_T>::size_type> topsort(const std::graf<T, WGT_T>& g) { std::vector<typename std::graf<T, WGT_T>::size_type> result; // 存储拓扑排序的结果 std::queue<typename std::graf<T, WGT_T>::size_type> q; // 存储入度为0的节点 // 统计每个节点的入度 std::vector<typename std::graf<T, WGT_T>::size_type> in_degree(g.num_vertices(), 0); for (typename std::graf<T, WGT_T>::size_type u = 0; u < g.num_vertices(); ++u) { for (auto v : g.adjacency_list(u)) { ++in_degree[v]; } } // 将入度为0的节点入队列 for (typename std::graf<T, WGT_T>::size_type u = 0; u < g.num_vertices(); ++u) { if (in_degree[u] == 0) { q.push(u); } } // 循环处理入度为0的节点 while (!q.empty()) { typename std::graf<T, WGT_T>::size_type u = q.front(); q.pop(); result.push_back(u); // 将所有u指向的节点的入度减1,并将入度减为0的节点入队列 for (auto v : g.adjacency_list(u)) { --in_degree[v]; if (in_degree[v] == 0) { q.push(v); } } } // 如果结果集合的大小不等于节点的数量,则说明图存在环路 if (result.size() != g.num_vertices()) { result.clear(); // 清空结果 throw std::runtime_error("Graph contains a cycle"); } return result; } ``` 这个函数使用了队列来存储入度为0的节点。首先,统计每个节点的入度,然后将入度为0的节点入队列。然后,循环处理队列的节点,将结果放入拓扑排序的结果集合,并将所有从该节点出发的边的终点的入度减1。如果结果集合的大小不等于节点的数量,则说明图存在环路,此时会抛出一个异常。 这个函数的时间复杂度是O(V + E),其V是节点的数量,E是边的数量。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值