解读《大话数据结构》（2. 算法）

最新推荐文章于 2024-05-04 22:59:00 发布

Zack_111

最新推荐文章于 2024-05-04 22:59:00 发布

阅读量176

点赞数

文章标签：算法数据结构机器学习

本文链接：https://blog.csdn.net/qq_35916006/article/details/125762090

版权

2. 算法

2.5 算法的特性

一个算法，就是一个有穷规则的集合，其中规则规定了一个解决某一特定类型的问题的运算序列；此外，一个算法有五个重要的特性

有穷性 指算法再执行有限的步骤之后，自动结束而不会出现无限循环，并且每一个步骤再可接受的时间内完成。
确定性 算法的每一个步骤，必须是确切定义的。
可行性 算法的每一步都必须是可行的，也就是说，每一步都能够通过执行有限次数完成。

2.6 算法设计的要求

2.6.1 正确性

正确性：算法的正确性是指算法至少具有输入、输出、和加工处理无歧义性、能正确反映问题的需求、能够得到问题的正确答案。

但是算法的“正确”通常在用法上有很大的差别，大体分为以下四个层次。

算法程序没有语法错误
算法程序对于合法的输入数据能够长生满足要求的输出结果
算法程序对于非法输入数据能够得出满足规格说明的结果
算法程序对于精心选择的，甚至刁难的测试数据都有满足要求的输出结果

2.6.2 可读性

可读性：算法设计的另一目的是为了便于阅读、理解和交流

可读性高有助于人们理解算法、晦涩难懂的算法往往隐含错误，不易被发现，并且难于调试和修改。

2.6.3 健壮性

健壮性：当输入的数据不合法时，算法也能做出相关处理，而不是产生异常或莫名其妙的结果。

2.6.4 时间效率高和存储量低

时间效率指的是算法的执行时间，对于同一个问题，如果有多个算法能够解决，执行时间短的算法效率高，执行时间长的效率低。存储量需求指的是算法在执行过程中需要的最大存储空间，主要值算法程序运行时所镇用的内存或外部硬盘的存储空间。设计算法应该尽量满足时间效率高和存储量低的需求。

2.7 算法效率的度量方法

2.7.1 时候统计方法

事后统计方法：这种方法主要是通过设计好的测试程序和数据，利用计算机计时器对不同算法编制的程序的运行时间进行比较，从而确定算法效率的高低

这种方法的缺陷：

必须依据算法实现编制好的程序，这通常需要花费大连大哥时间和精力。
时间的比较依赖计算机硬件和软件等环境因素。
算法的测试数据设计困难，并且程序运行时间还与测试数据的规模有很大关系。

2.7.2 事前分析估算方法

我们的计算机前辈们，为了对算法的评判更科学，研究出来一种叫做事前分析估算的方法。

事前分析估算方法：在计算机程序百年之前，依据统计方法对算法进行估算

一个用高级程序语言编写的程序在计算机上运行时所消耗的时间取决于下列因素：

算法采用的策略、方法
编译产生的代码质量
问题的输入规模
机器执行指令的速度

抛开计算机因素，一个程序的运行时间，依赖于算法的好坏和问题的输入规模，所谓问题的输入规模就是指输入量的多少

两种求和算法：

第一种：

int i, sum = 0, n = 100;	// 执行一次
for (i = 1; i <= n; i++)	// 执行n+1次
{
    sum = sum + i;			// 执行n次
}
printf("%d", sum);  		// 执行一次

第二种：

int sum = 0, n = 100;		// 执行一次
sum = (1 + n) * n/2;		// 执行一次
printf("%d", sum)			// 执行一次

上面例子的延伸：

int i, j, x = 0, sum = 0, n = 100;    // 执行一次
for (i = 1; i <= n; i++)
{
    for (j = 1; j <= n; j++)
    {
        x++;
        sum = sum + x;				  // 执行n * n 次
    }
}
printf("%d", sum);					  // 执行一次

最终，在分析程序的运行时间时，最重要的时吧程序看成是独立于程序设计语言的算法或一系列的步骤。

2.8 函数的渐近增长

次数	算法A（2n + 3）	算法A’（2n）	算法B（3n + 1）	算法B’(3n)
n = 1	5	2	4	3
n = 2	7	4	7	6
n = 3	9	6	10	9
n = 10	23	20	31	30
n = 100	203	200	301	300

输入规模n没有限制的情况下，只要超过一个数值N，这个函数就总是大于另一个函数，我们称函数是渐近增长的。

函数的渐近增长：给定两个函数f(n)和g(n)，如果存在一个整数N，使得对所有的n > N，f(n)总是比g(n)大，那么，我们说f(n)的增长渐近快于g(n)

与最高次相乘的常数并不重要

判断一个算法的效率时，函数中的常数和其他次要项常常可以忽略，而更应该关注主项（最高阶项）的阶数

某个算法，随着n的增大，它会越来越优于另一算法，或者越来越差于另一算法

2.9 算法时间复杂度

2.9.1 算法时间复杂度定义

在进行算法分析时，语句总的执行次数 T(n) 是关于问题规模n的函数，进而分析 T(n) 随 n 的变化情况并确定 T(n) 的数量级。算法的时间复杂度，也就是算法的时间量度，记作：$ T(n) = O(f(n)) $。它表示随问题规模n的增大，算法执行时间的增长率和 f(n) 的增长率相同，称作算法的渐近时间复杂度，简称为时间复杂度。其中 f(n) 是问题规模n的某个函数。

我们使用O()来体现算法时间复杂度的记法，我们称之大O记法。

2.9.2 推导大O阶方法

推导大O阶：

用常数1取代运行时间中所有加法常数
再修改后的运行次数函数中，只保留最高阶项
如果最高阶项存在却不是1，则取出与这个项相乘的常数。得到结果就是大O阶

2.9.3 常数阶

int sum = 0, n = 100;	// 执行一次
sum = (1 + n) * n/2;	// 执行一次
printf("%d", sum);		// 执行一次

时间复杂度为O(1)

2.9.4 线性阶

我们要分析算法的复杂度，关键就是要分析循环结构的运行情况

int i;
for (i = 0; i < n; i++)
{
    /* 时间复杂度为O(1)的程序步骤序列 */
}

时间复杂度为O(n)

2.9.5 对数阶

int count  = 1;
while (count < n)
{
    count = count * 2;
    /* 时间复杂度为O(1)的程序步骤序列 */
}

时间复杂度为O(logn)

2.9.6 平方阶

int i, j;
for(i = 0; i < n; i++)
{
    for (j = 0; j < n; j++)
    {
        /* 时间复杂度为O(1)的程序步骤序列 */
    }
}

这段代码的时间复杂度为 $O(n^{2})$

int i, j;
for (i = 0; i < m; i++)
{
    for (j = 0; j < n; j++)
    {
        /* 时间复杂度为O(1)的程序步骤序列 */
    }
}

时间复杂度为O(m * n)

int i, j;
for (i = 0; i < n; i++)
{
    for (j = i; j < n; j++)    // 注意j = i
    {
        // 时间复杂度为O(1)的程序步骤序列
    }
}

当i=0时，内循环执行了n次，当i=1时，执行了n-1次，……当i = n-1,执行了1次，所以总的执行次数为

$\frac{n+(n+1)}{2} = \frac{n^{2}}{2} + \frac{n}{2}$

我们推导大O阶的方法，最终这段代码的时间复杂度为 $O(n^{2})$

n++;							// 执行次数为1
function(n);					// 执行次数为n
int i, j;
for (i = 0; i < n; i++)			// 执行次数为n2
{
    function(i);
}
for (i = 0; i < n; i++)			// 执行次数为n(n+1)/2
{
    for (j = i; j < n; j++)
    {
        // 时间复杂度为O(1)的程序步骤序列
    }
}

它的执行次数 $f(n)=1+n+n^{2}+ \frac{n(n+1)}{2} = \frac{3}{2}n^{2} + \frac{3}{2}n + 1$

根据推导大O阶方法，最终这段代码的时间复杂度也是 $O(n^{2})$

2.10常见的时间复杂度

执行次数函数	阶	非正式术语
12	O(1)	常数阶
2n + 3	O(n)	线行阶
$3n^{2}+2n+1$	$O(n^{2})$	平方阶
$5\log_{2}n+19$	$O(\log n)$	对数阶
$2n+3n \log_{2} n + 19$	$\log n)$	nlogn阶
$6n^{3}+2^{3}+3n+4$	$O(n^{3})$	立方阶
$2^{n}$	$O(2^{n})$	指数阶