NzN的数据结构--复杂度分析

一个闪现必杀技

已于 2024-03-30 12:00:49 修改

阅读量1.1k

点赞数 22

分类专栏：数据结构初阶文章标签：数据结构

于 2024-03-30 11:43:50 首次发布

本文链接：https://blog.csdn.net/2301_79676950/article/details/137168505

版权

数据结构初阶专栏收录该内容

13 篇文章 1 订阅

订阅专栏

在算法设计中，我们先后追求以下两个目标。

找到问题解法：在规定的输入范围内可靠地求得正确解。
寻求最优解法：同一个问题可能存在多种解法，我们希望找到尽可能高效的算法。

我们的目标是设计“既快又省”的算法。只有有效地评估算法效率，才能将各种算法进行对比，进而优化算法。因此学习复杂度分析对于我们追求上面提到的两大目标有着很大的意义。

以下是本文目录：

一、算法效率

1. 如何衡量一个算法的好坏

long long Fib(int N)
{
    if(N>3)
        return 1;
    return Fib(N-1)+Fib(N-2);
}

斐波那契数列的递归实现方式非常简洁，但简洁一定好吗？那该如何衡量其好与坏呢？

2. 算法的复杂度

算法在编写成可执行程序后，运行时需要耗费时间资源和空间(内存)资源。因此衡量一个算法的好坏，一般是从时间和空间两个维度来衡量的，即时间复杂度和空间复杂度。

时间复杂度主要衡量一个算法的运行快慢，而空间复杂度主要衡量一个算法运行所需要的额外空间。

在计算机发展早期，计算机存储容量很小，所以重视算法的空间复杂度。但是经过计算机行业的发展，计算机的存储容量已经达到了很高的程度。所以我们如今已经不需要特别关注一个算法的空间复杂度。

二、算法效率评估

效率评估方法主要分为两种：实际测试、理论估算。

1. 实际测试

假设我们现在有A和B两个算法，它们都能解决同一问题，现在需要对比这两个算法的效率。最直接的方法是找一台计算机，运行这两个算法，并监控记录它们的运行时间和内存占用情况。这种评估方式能够反映真实情况，但也存在较大的局限性。

一方面，难以排除测试环境的干扰因素。硬件配置会影响算法的性能。比如在某台计算机中，算法A 的运行时间比算法B短；但在另一台配置不同的计算机中，可能得到相反的测试结果。

另一方面，展开完整测试非常耗费资源。随着输入数据量的变化，算法会表现出不同的效率。例如，在输入数据量较小时，算法A的运行时间比算法B短；而在输入数据量较大时，测试结果可能恰恰相反。

2. 理论估算

由于实际测试具有较大的局限性，因此我们可以考虑仅通过一些计算来评估算法的效率。这种估算方法被称为渐近复杂度分析，简称复杂度分析。

复杂度分析能够体现算法运行所需的时间和空间资源与输入数据大小之间的关系。它描述了随着输入数据大小的增加，算法执行所需时间和空间的增长趋势。这个定义有些拗口，我们可以将其分为三个重点来理解。

“时间和空间资源”分别对应时间复杂度和空间复杂度。
“随着输入数据大小的增加”意味着复杂度反映了运行效率与输入数据量之间的关系。
“时间和空间的增长趋势”表示复杂度分析关注的不是运行时间或占用空间的具体值，而是时间或空间增长的“快慢”。

复杂度分析克服了实际测试方法的弊端，体现在以下两个方面。

它独立于测试环境，分析结果适用于所有运行平台。
它可以体现不同数据量下的算法效率，尤其是在大数据量下的算法性能。

复杂度分析为我们提供了一把评估算法效率的“标尺”，使我们可以衡量执行某个算法所需的时间和空间资源，对比不同算法之间的效率。

三、时间复杂度

1. 时间复杂度的概念

定义：算法的时间复杂度是一个数学意义上的函数，它定量地描述了该算法的运行时间。一个算法执行所耗费的时间理论上是不能算出来的，只有把程序在机器上运行起来才能知道。

但是我们不需要把每个算法都上机测试，所以才有了时间复杂度的分析方式。一个算法所花费的时间与其中语句的执行次数成正比例，算法中的基本操作的执行次数，为算法的时间复杂度。即：找到某条基本语句与问题规模N之间的数学表达式，就是算出了该算法的时间复杂度。

//Func1中++count语句总共执行了多少次？
void Func1(int N)
{
	int count = 0;
	for (int i = 0; i < N; ++i)
	{
		for (int j = 0; j < N; ++j)
		{
			++count;
		}
	}
	for (int k = 0; k < 2 * N; ++k)
	{
		++count;
	}
	int M = 10;
	while (M--)
	{
		++count;
	}
	printf("%d\n", count);
}
//Func1 执行的基本操作次数 ：F(N)=N^2+2N+10。
//N = 10    F(N) = 130
//N = 100   F(N) = 10210
//N = 1000  F(N) = 1002010

实际中我们计算时间复杂度时，我们并不一定要计算精确的执行次数，只需要大概执行次数，那么这里我们使用大O的渐进表示法。

2. 大O的渐进表示法

大O符号（Big O notation）：是用于描述函数渐进行为的数学符号。

推导大O阶方法：

函数式中只有常数时，用1代替运行时间中的所有加法常数。
在修改后的运行次数函数中，只保留最高阶项。
如果最高阶项存在且不是1，则去除与这个项目相乘的常数，得到大O阶。

使用大O的渐进表示法以后，上面Func1代码的时间复杂度为O（N^2）。

我们发现大O的渐进表示法去掉了对结果影响不大的项，简洁的表示了执行次数。

另外有些算法的时间复杂度存在最好、平均和最坏情况：

最坏情况：任意输入规模的最大运行次数(上界)

平均情况：任意输入规模的期望运行次数

最好情况：任意输入规模的最小运行次数(下界)

如果我们要在一个长度为N数组中搜索一个数据x，最好情况1次找到，最坏情况N次找到，平均情况N/2次找到。

在实际中，一般关注算法的最坏情况，所以数组中搜索数据时间复杂度为O(N)。

递归算法计算时间复杂度只需要计算递归次数，再参照大O阶方法简化即可。

3. 常见时间复杂度的计算

void Func2(int N)
{
	int count = 0;
	for (int k = 0; k < 2 * N; ++k)
	{
		++count;
	}
	int M = 10;
	while (M--)
	{
		++count;
	}
	printf("%d\n", count);
}
//Func2的时间复杂度为O(N)
//最高阶项存在且不是1，因此去除与N相乘的常数2
//while循环运行M次，M是一个常数，时间复杂度是O(1)
//保留最高阶项即为O(N)

void Func3(int N, int M)
{
	int count = 0;
	for (int k = 0; k < M; ++k)
	{
		++count;
	}
	for (int k = 0; k < N; ++k)
	{
		++count;
	}
	printf("%d\n", count);
}
//Func3的时间复杂度为O(M+N)
//这里M和N都不能被化简，因为不知道M和N的大小
//如果M远大于N，即可化简为O(M)

void Func4(int N)
{
	int count = 0;
	for (int k = 0; k < 100; ++k)
	{
		++count;
	}
	printf("%d\n", count);
}
//Func4的时间复杂度为O(1)
//注意：O(1)不是代表运行一次，而是指运行常数次。

//假设字符串长度为N，计算strchr的时间复杂度
const char* strchr(const char* str, int character)
//strchr查找字符串中查找字符character
//简易实现如下
{
	while (*str)
	{
		if (*str == character)
			return str;
		else
			++str;
	}
}
//最好情况1次找到，最差情况N次找到
//取最差情况，即时间复杂度为O(N)

//计算冒泡排序的时间复杂度
void BubbleSort(int* a, int n)
{
	assert(a);
	for (size_t end = n; end > 0; --end)
	{
		int exchange = 0;
		for (size_t i = 1; i < end; ++i)
		{
			if (a[i - 1] > a[i])
			{
				Swap(&a[i - 1], &a[i]);
				exchange = 1;
			}
		}
		if (exchange == 0)
			break;
	}
}
//最好情况比较N次，即为O(N）
//最差情况交换(N*(N+1))/2次，即(N^2+N)/2
//取最差情况，即时间复杂度为O(N^2)

// 计算二分查找的时间复杂度
int BinarySearch(int* a, int n, int x)
{
	assert(a);
	int begin = 0;
	int end = n - 1;
	//[begin, end]：begin和end是左闭右闭区间，因此有=号
	while (begin <= end)
	{
		int mid = begin + ((end - begin) >> 1);
		if (a[mid] < x)
			begin = mid + 1;
		else if (a[mid] > x)
			end = mid - 1;
		else
			return mid;
	}
	return -1;
}
//最差情况有两种：区间只有一个值或者找不到
//每查找一次，范围缩小一半
//当N/2/2……=1时，即查找区间只有一个值的时候，要么找到了要么找不到
//除了几次2，就找了多少次，假设除了x次
//N=2的x次方，x就是log以2为底，N的对数
//即时间复杂度为O(log以2为底，N的对数)

//计算阶乘递归Fac的时间复杂度
long long Fac(size_t N)
{
	if (0 == N)
		return 1;
	return Fac(N - 1) * N;
}
//基本操作递归了N次，时间复杂度为O(N)

//变式：计算Func的时间复杂度
long long Func(size_t N)
{
	if (0 == N)
		return 1;
	for (int i = 0; i < N; i++)
	{
		//……
	}
	return Func(N - 1) * N;
}
//递归有N次调用，当递归到N-1时，for循环里的N实际上是N-1
//因此这里实际上是一个等差数列，时间复杂度为O(N^2)

//计算斐波那契递归的时间复杂度
long long Fib(size_t N)
{
	if (N < 3)
		return 1;
	return Fib(N - 1) + Fib(N - 2);
}
//F(N)=2^0+2^1+……+2^(N-1)=2^N - 1
//时间复杂度为O(2^N)

四、空间复杂度

空间复杂度也是一个数学表达式，是对一个算法在运行过程中临时占用额外存储空间大小的量度。

空间复杂度不是程序占用了多少字节的空间，算的是变量的个数。

空间复杂度计算规则基本跟实践复杂度类似，也使用大O渐进表示法。

函数运行时所需要的栈空间(存储参数、局部变量、一些寄存器信息等)在编译期间已经确定，因此空间复杂度主要通过函数在运行时显式申请的额外空间来确定。

算法在运行过程中使用的内存空间主要包括以下几种。

输入空间：用于存储算法的输入数据。
暂存空间：用于存储算法在运行过程中的变量、对象、函数上下文等数据。
输出空间：用于存储算法的输出数据。

一般情况下，空间复杂度的统计范围是“暂存空间”加上“输出空间”。

暂存空间可以进一步划分为三个部分。

暂存数据：用于保存算法运行过程中的各种常量、变量、对象等。
栈帧空间：用于保存调用函数的上下文数据。系统在每次调用函数时都会在栈顶部创建一个栈帧，函数返回后，栈帧空间会被释放。
指令空间：用于保存编译后的程序指令，在实际统计中通常忽略不计。

在分析一段程序的空间复杂度时，我们通常统计暂存数据、栈帧空间和输出数据三部分。

//计算冒泡排序的空间复杂度
void BubbleSort(int* a, int n)
{
	assert(a);
	for (size_t end = n; end > 0; --end)
	{
		int exchange = 0;
		for (size_t i = 1; i < end; ++i)
		{
			if (a[i - 1] > a[i])
			{
				Swap(&a[i - 1], &a[i]);
				exchange = 1;
			}
		}
		if (exchange == 0)
			break;
	}
}
//使用了常数个额外空间，所以空间复杂度为 O(1)
//i虽然不断变大，但始终都使用的同一块空间
//注意：空间可以重复利用，而时间是累加的。

//计算Fibonacci的空间复杂度
//返回斐波那契数列的前n项
long long* Fibonacci(size_t n)
{
	if (n == 0)
		return NULL;
	long long* fibArray = (long long*)malloc((n + 1) * sizeof(long long));
	fibArray[0] = 0;
	fibArray[1] = 1;
	for (int i = 2; i <= n; ++i)
	{
		fibArray[i] = fibArray[i - 1] + fibArray[i - 2];
	}
	return fibArray;
}
//动态开辟了N+1个空间，空间复杂度为O(N)

//计算阶乘递归Fac的空间复杂度
long long Fac(size_t N)
{
	if (N == 0)
		return 1;
	return Fac(N - 1) * N;
}
//递归调用了N次，开辟了N个栈帧，每个栈帧使用了常数个空间
//栈帧算额外开辟的空间
//空间复杂度为O(N)

//计算斐波那契递归Fib的空间复杂度
long long Fib(size_t N)
{
	if (N < 3)
		return 1;
	return Fib(N - 1) + Fib(N - 2);
}
//空间复杂度为O(N)
//递归调用会重复使用同一块空间，如Fib(2)和Fib(1)是同一块空间

画图理解：