数据结构与算法之入门篇——03 | 复杂度分析

本文深入探讨了为什么需要进行复杂度分析,介绍了大 O 复杂度表示法,包括时间复杂度和空间复杂度的概念,并通过实例详细讲解如何分析代码的时间复杂度,总结了常见的时间复杂度量级,帮助读者掌握算法执行效率的评估方法。
摘要由CSDN通过智能技术生成

目录

为什么需要复杂度分析?

复杂度分析     

 大 O 复杂度表示法T(n)=O(f(n))         

  时间复杂度

         大 O时间复杂度

        如何分析一段代码的时间复杂度?

        时间复杂度量级

空间复杂度

        大 O 空间复杂度

        空间复杂度量级


为什么需要复杂度分析?

  • 执行效率是算法一个非常重要的考量指标

         - 数据结构和算法本身解决的是“快”和“省”的问题,即如何让代码运行得更快,如何让代码更省存储空间

  • 事后统计法有非常大的局限性       

         - 测试结果非常依赖测试环境

             例如,硬件环境不同,处理器不同         

         - 测试结果受数据规模的影响很大

  • 我们需要不用具体的测试数据来测试,就可以粗略估计算法执行效率的方法——时间、空间复杂度分析方法


复杂度分析     

  •  大 O 复杂度表示法T(n)=O(f(n))         

         - 用来分析算法执行效率与数据规模之间的增长关系,可以粗略地表示,越高阶复杂度的算法,执行效率越低
         - 包括时间复杂度和空间复杂度 
         - T(n)表示代码执行的时间或者算法的存储空间 
         - n 表示数据规模的大小
         - f(n)表示每行代码执行的次数总和
         -  O表示代码的执行时间或者存储空间T(n) 与 f(n) 表达式成正比

  •   时间复杂度

         大 O时间复杂度

          表示代码执行时间随数据规模增长的变化趋势,也叫作渐进时间复杂度

          下面这段非常简单的代码,求 1,2,3…n 的累加和。我们来估算一下这段代码的执行时间。   

int cal(int n) {
   int sum = 0;
   int i = 1;
   for (; i <= n; ++i) {
     sum = sum + i;
   }
   return sum;
 }

        从 CPU 的角度来看,这段代码的每一行都执行着类似的操作:读数据-运算-写数据。尽管每行代码对应的 CPU 执行的个数、执行的时间都不一样,但是,我们这里只是粗略估计,所以可以假设每行代码执行的时间都一样,为 unit_time。在这个假设的基础之上,这段代码的总执行时间是多少呢?

        第 2、3 行代码分别需要 1 个 unit_time 的执行时间,第 4、5 行都运行了 n 遍,所以需要 2n*unit_time 的执行时间,所以这段代码总的执行时间就是 (2n+2)*unit_time。可以看出来,所有代码的执行时间 T(n) 与每行代码的执行次数成正比,即T(n) = O(2n+2)。

        当 n 很大时,你可以把它想象成 10000、100000。而公式中的低阶、常量、系数三部分并不左右增长趋势,所以都可以忽略。我们只需要记录一个最大量级就可以了,如果用大 O 表示法表示刚讲的那段代码的时间复杂度,就可以记为:T(n) = O(n)

        如何分析一段代码的时间复杂度?

             - 只关注循环执行次数最多的一段代码 

               为了便于理解,我还拿前面的例子来说明。其中第 2、3 行代码都是常量级的执行时间,与 n 的大小无关,所以对于复杂度并没有影响。循环执行次数最多的是第 4、5 行代码,所以这块代码要重点分析。前面我们也讲过,这两行代码被执行了 n 次,所以总的时间复杂度就是 O(n)。

             - 加法法则:总复杂度等于量级最大的那段代码的复杂度

int cal(int n) {
   int sum_1 = 0;
   int p = 1;
   for (; p < 100; ++p) {
     sum_1 = sum_1 + p;
   }
 
   int sum_2 = 0;
   int q = 1;
   for (; q < n; ++q) {
     sum_2 = sum_2 + q;
   }
 
   int sum_3 = 0;
   int i = 1;
   int j = 1;
   for (; i <= n; ++i) {
     j = 1; 
     for (; j <= n; ++j) {
       sum_3 = sum_3 +  i * j;
     }
   }
 
   return sum_1 + sum_2 + sum_3;
 }

                这个代码分为三部分,分别是求 sum_1、sum_2、sum_3。我们可以分别分析每一部分的时间复杂度,然后把它们放到一块儿,再取一个量级最大的作为整段代码的复杂度。

                第一段的时间复杂度是多少呢?这段代码循环执行了 100 次,所以是一个常量的执行时间,跟 n 的规模无关。

                这里我要再强调一下,即便这段代码循环 10000 次、100000 次,只要是一个已知的数,跟 n 无关,照样也是常量级的执行时间。当 n 无限大的时候,就可以忽略。尽管对代码的执行时间会有很大影响,但是回到时间复杂度的概念来说,它表示的是一个算法执行效率与数据规模增长的变化趋势,所以不管常量的执行时间多大,我们都可以忽略掉。因为它本身对增长趋势并没有影响。

                那第二段代码和第三段代码的时间复杂度是多少呢?答案是 O(n) 和 O(n2)。

                综合这三段代码的时间复杂度,我们取其中最大的量级。所以,整段代码的时间复杂度就为 O(n2)。也就是说:总的时间复杂度等于量级最大的那段代码的时间复杂度。那我们将这个规律抽象成公式就是:

                如果 T1(n)=O(f(n)),T2(n)=O(g(n));那么 T(n)=T1(n)+T2(n)=max(O(f(n)), O(g(n))) =O(max(f(n), g(n))).

             - 乘法法则:嵌套代码的复杂度等于嵌套内外代码复杂度的乘积

                假设 T1(n) = O(n),T2(n) = O(n2),则 T1(n) * T2(n) = O(n3)。落实到具体的代码上,我们可以把乘法法则看成是嵌套循环,举个例子解释一下。

                我们单独看 cal() 函数。假设 f() 只是一个普通的操作,那第 4~6 行的时间复杂度就是,T1(n) = O(n)。但 f() 函数本身不是一个简单的操作,它的时间复杂度是 T2(n) = O(n),所以,整个 cal() 函数的时间复杂度就是,T(n) = T1(n) * T2(n) = O(n*n) = O(n2)。

int cal(int n) {
   int ret = 0; 
   int i = 1;
   for (; i < n; ++i) {
     ret = ret + f(i);
   } 
 } 
 
 int f(int n) {
  int sum = 0;
  int i = 1;
  for (; i < n; ++i) {
    sum = sum + i;
  } 
  return sum;
 }

        时间复杂度量级

  •              多项式量级

                 - 常量阶O(1)<对数阶O(logn)<线性阶O(n)<线性对数阶nO(logn)<平方阶O(n^2)<立方阶O(n^3)<……<k次方阶O(n^k)


                 - 常量阶O(1)
                 一般情况下,只要算法中不存在循环语句、递归语句,即使有成千上万行的代码,其时间复杂度也是Ο(1)
                 - O(logn)、O(nlogn)

                对数阶时间复杂度非常常见,同时也是最难分析的一种时间复杂度。通过一个例子来说明一下。

 i=1;
 while (i <= n)  {
   i = i * 2;
 }

                从代码中可以看出,变量 i 的值从 1 开始取,每循环一次就乘以 2。当大于 n 时,循环结束。还记得我们高中学过的等比数列吗?实际上,变量 i 的取值就是一个等比数列。如果我把它一个一个列出来,就应该是这个样子的:

                所以,我们只要知道 x 值是多少,就知道这行代码执行的次数了。通过 2x=n 求解 x 这个问题我们想高中应该就学过了,我就不多说了。x=log2n,所以,这段代码的时间复杂度就是 O(log2n)。

                还记得我们刚讲的乘法法则吗?如果一段代码的时间复杂度是 O(logn),我们循环执行 n 遍,时间复杂度就是 O(nlogn) 了。而且,O(nlogn) 也是一种非常常见的算法时间复杂度。比如,归并排序、快速排序的时间复杂度都是 O(nlogn)。
                 - O(m+n)、O(m*n)

                代码的复杂度由两个数据的规模来决定 

int cal(int m, int n) {
  int sum_1 = 0;
  int i = 1;
  for (; i < m; ++i) {
    sum_1 = sum_1 + i;
  }
 
  int sum_2 = 0;
  int j = 1;
  for (; j < n; ++j) {
    sum_2 = sum_2 + j;
  }
 
  return sum_1 + sum_2;
}

                从代码中可以看出,m 和 n 是表示两个数据规模。我们无法事先评估 m 和 n 谁的量级大,所以我们在表示复杂度的时候,就不能简单地利用加法法则,省略掉其中一个。所以,上面代码的时间复杂度就是 O(m+n)。

                针对这种情况,原来的加法法则就不正确了,我们需要将加法规则改为:T1(m) + T2(n) = O(f(m) + g(n))。但是乘法法则继续有效:T1(m)*T2(n) = O(f(m) * f(n))。

  •               非多项式量级

             -     多项式量级<指数阶O(2^n)<阶乘阶O(n!) 


空间复杂度


        大 O 空间复杂度

                表示算法的存储空间与数据规模之间的增长关系,也叫作渐进时间复杂度


        空间复杂度量级


                空间复杂度分析比时间复杂度分析要简单很多。常见的空间复杂度 O(1)、O(n)、O(n2 ),O(logn)、O(nlogn) 这样的对数阶复杂度平时都用不到。

void print(int n) {
  int i = 0;
  int[] a = new int[n];
  for (i; i <n; ++i) {
    a[i] = i * i;
  }
 
  for (i = n-1; i >= 0; --i) {
    print out a[i]
  }
}

                跟时间复杂度分析一样,我们可以看到,第 2 行代码中,我们申请了一个空间存储变量 i,但是它是常量阶的,跟数据规模 n 没有关系,所以我们可以忽略。第 3 行申请了一个大小为 n 的 int 类型数组,除此之外,剩下的代码都没有占用更多的空间,所以整段代码的空间复杂度就是 O(n)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值