数构与算法：算法初步

创~世

于 2024-08-10 17:52:06 发布

阅读量356

点赞数 7

文章标签：算法

本文链接：https://blog.csdn.net/m0_63684047/article/details/140833337

版权

一、什么是算法

关于算法， Hello 算法是一个不错的参考网站

算法（Algorithm）是指解题方案的准确而完整的描述，是一系列解决问题的清晰指令，算法代表着用系统的方法描述解决问题的策略机制。也就是说，能够对一定规范的输入，在有限时间内获得所要求的输出。如果一个算法有缺陷，或不适合于某个问题，执行这个算法将不会解决这个问题。不同的算法可能用不同的时间，空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。

特征：

有穷性（Finiteness）算法的有穷性是指算法必须能在执行有限个步骤之后终止；
确切性 (Definiteness) 算法的每一步骤必须有确切的定义；
输入项 (Input) 一个算法有0个或多个输入，以刻画运算对象的初始情况，所谓0个输入是指算法本身定出了初始条件；
输出项 (Output) 一个算法有一个或多个输出，以反映对输入数据加工后的结果。没有输出的算法是毫无意义的；
可行性 (Effectiveness) 算法中执行的任何计算步骤都是可以被分解为基本的可执行的操作步骤，即每个计算步骤都可以在有限时间内完成（也称之为有效性）。

（一）算法的描述

算法的描述，直白而言是将算法的步骤表达出来。在不同的场景需求下，我们可以有不同的形式。

1、自然语言描述

自然语言一般用于口语交流中，使用语言来详细地描述算法的步骤和逻辑。在文本中，可以通过列表的形式。

2、流程图

是一种图形化的描述方法，使用图形符号来表示算法的执行过程和逻辑结构。在流程图中，可以使用不同的形状来表示算法中的各个步骤，并使用箭头来表示控制流程的转移。

3、伪代码

伪代码是一种近似于编程语言的描述方式，用于描述算法的步骤和逻辑。它不是任何一种具体的编程语言，而是一种普通语言与编程语言的混合体，用于描述算法的思路和逻辑，忽略了具体的语法和细节。

伪代码的目的是为了更加清晰地描述算法的逻辑，使读者能够理解算法的思路和过程，而不必关注具体的编程语言细节。

伪代码通常使用一些常见的编程语言的关键字和符号，如if，else，while，for等，同时也可以使用一些自定义的关键字和符号来增强描述能力。

下面是一个使用伪代码描述冒泡排序算法的例子：

procedure bubbleSort(A: list of sortable items)
    n := length(A)
    repeat
        swapped := false
        for i := 0 to n-2 do
            if A[i] > A[i+1] then
                swap(A[i], A[i+1])
                swapped := true
            end if
        end for
    until not swapped
end procedure

这段伪代码描述了冒泡排序算法的逻辑。在伪代码中，使用了一些常见的编程关键字，如procedure，repeat，for，if等，同时也使用了一些自定义的符号和操作，如:=表示赋值，>表示大于，swap表示交换元素等。

（二）算法的分析

算法分析是对算法的执行时间和所需空间的估量，通常使用时间复杂度和空间复杂度来衡量。时间复杂度是指执行算法所需要的计算工作量，它反映了算法的执行速度。空间复杂度是指执行算法所需要的内存空间，它反映了算法的存储开销。

1、时间复杂度

算法的时间复杂度主要描述了算法运行所需的时间长短。具体来说，它衡量了随着输入数据规模的增长，算法运行时间的增长趋势。

问题规模和语句频度

不考虑计算机的软硬件等环境因素，影响算法时间代价的最主要因素是问题规模。问题规模是算法求解问题输入量的多少，是问题大小的本质表示，一般用整数n表示。问题规模n对不同的问题含义不同，例如，在排序运算中n为参加排序的记录数，在矩阵运算中n为矩阵的阶数，在多项式运算中n为多项式的项数，在集合运算中n为集合中元素的个数，在树的有关运算中n为树的节点个数，在图的有关运算中n为图的顶点数或边数。显然，n越大算法的执行时间越长。

一个算法的执行时间大致上等于其所有语句执行时间的总和，而语句的执行时间则为该条语句的重复执行次数和执行一次所需时间的乘积。

一条语句的重复执行次数称作语句频度（Frequency Count）。

由于语句的执行要由源程序经编译程序翻译成目标代码，目标代码经装配再执行，因此语句执行一次实际所需的具体时间是与机器的软、硬件环境（如机器速度、编译程序质量等）密切相关的。所以，所谓的算法分析并非精确统计算法实际执行所需时间，而是针对算法中语句的执行次数做出估计，从中得到算法执行时间的信息。设每条语句执行一次所需的时间均是单位时间，则一个算法的执行时间可用该算法中所有语句频度之和来度量。

计算方法

为了方便表达数据结构和算法的时间复杂度，计算机科学家从数学界借鉴了一种简洁又通用的方式，那就是大 O 记法。这种规范化语言使得我们可以轻松地指出一个算法的性能级别，也令学术交流变得简单。

大O表示法：算法的时间复杂度通常用大O符号表述，定义为 $T(n) = O(f(n))=O(n)$ 。称函数T(n)以f(n)为界或者称T(n)受限于f(n)。如果一个问题的规模是n，解这一问题的某一算法所需要的时间为T(n)。T(n)称为这一算法的“时间复杂度”。当输入量n逐渐加大时，时间复杂度的极限情形称为算法的“渐近时间复杂度”。

例如，对于求1~n的整数和,n>1，一个C语言算法简单如下：

int i; // 语句频度1
int result; // 语句频度1
for(i = 1; i < n; i++){ // i = 1语句频度1; i < n 语句频度n; i++ 语句频度n+1
	result += i; // 语句频度n
}

此算法的时间复杂度 $f(n) = 3n+4$

当n趋向无穷大时，显然有

$\lim_{0\rightarrow+\infty}f(n)/n = \lim_{n\rightarrow+\infty}(3n+4)/n = 3$

即， $f(n)$ 和 $n$ 之比是一个不等于0的常数。即 $f(n)$ 和 $n$ 是同阶的，或者说 $f(n)$ 和 $n$

的数量级（Order of Magnitude）相同。在这里，我们用“O”来表示数量级，记作

$T(n) = O(f(n))=O(n)$

由此我们可以给出下述算法时间复杂度的定义。

一般情况下，算法中基本语句重复执行的次数是问题规模n的某个函数f(n)，算法的时间量度记作：

$f(n)=a_mn^m + a_{m-1}n^{m-1}+...+a_1n+a^0$

是一个m次多项式，则 $T(n)=O(n^m)$

它表示随着问题规模n的增大，算法执行时间的增长率和f(n)的增长率相同，称作算法的渐近时间复杂度，简称时间复杂度（Time Complexity）。

分析算法时间复杂度的基本方法为：找出所有语句中语句频度最大的那条语句作为基本语句，计算基本语句的频度得到问题规模n的某个函数f(n)，取其数量级用符号“O”表示即可。

在计算算法时间复杂度时，可以忽略所有低次幂项和最高次幂的系数，这样可以简化算法分析，也体现出了增长率的含义。

常见的时间复杂度量级

常数时间复杂度：O(1)。这意味着无论输入规模如何，算法的运行时间都是恒定的。
线性时间复杂度：O(n)。算法的运行时间与输入规模成正比。
对数时间复杂度：O(log n)。算法的运行时间与输入规模的对数成正比。
线性对数时间复杂度：O(n log n)。
平方时间复杂度：O(n^2)。
立方时间复杂度：O(n^3)。
指数时间复杂度：O(2^n)。这是一个非常糟糕的情况，因为即使输入规模稍微增加一点，算法的运行时间也可能急剧增加。

2、空间复杂度

空间复杂度是指算法在执行过程中所需的额外空间的量度，通常以字节为单位。它描述的是算法所需的额外空间随着问题规模的增长而变化的情况。

空间复杂度可以分为两类：

辅助空间复杂度：指算法在执行过程中所需的额外空间，不包括输入数据本身。例如，如果算法中使用了一个大小为n的数组来存储临时变量，那么辅助空间复杂度就为O(n)。
总空间复杂度：指算法在执行过程中所需的总的空间，包括辅助空间以及输入数据本身。通常情况下，总空间复杂度等于辅助空间复杂度加上输入数据的空间复杂度。例如，如果算法需要一个大小为n的数组来存储输入数据，并且还需要使用另外一个大小为m的数组来存储临时变量，那么总空间复杂度就为O(n + m)。

对于不同的算法，空间复杂度可能会有不同的度量方式，例如，对于排序算法，空间复杂度可以度量为算法所需的额外空间与输入数据的大小之和，即O(n)，其中n为输入数据的大小。对于图算法，空间复杂度可以度量为算法所需的额外空间与图中顶点数和边数之和，即O(V + E)，其中V为顶点数，E为边数。

在进行算法分析时，空间复杂度往往是一个重要的指标，因为它可以反映算法的空间利用率。较低的空间复杂度通常意味着算法使用的额外空间相对较少，节省了计算资源。然而，有时候为了提高算法的时间效率，可能需要牺牲一定的空间效率。因此，在算法设计时需要综合考虑时间复杂度和空间复杂度的平衡。

二、线性搜索算法

这里的线性，指的是，搜索的维度是一维的，即在诸如数组中的搜索，对于每一个当前搜索元素，有且仅有向前或向后搜索的可能。

（一）顺序查找

对于无序，或者完全没有其它辅助信息可以帮助我们略过某个线性序列而找到我们的目标，顺序查找是唯一的方法，它是一种简单直观的搜索算法，用于在一个列表或数组中查找目标元素。

搜索算法从列表的第一个元素开始，逐个地比较每个元素，直到找到目标元素或搜索完整个列表。

顺序搜索算法的时间复杂度为O(n)，其中n是列表的长度。这是因为在最坏情况下，需要遍历整个列表才能找到目标元素。因此，顺序搜索算法在大型列表中的效率相对较低。

然而，顺序搜索算法的优点是它的实现简单，无需对列表进行排序。因此，在小型列表或无序列表中，顺序搜索算法是一种有效的搜索方法。

（二）折半查找

折半查找，也叫二分查找，是一种在有序数组中查找特定元素的算法。它的思想是将数组中间位置的元素与目标元素进行比较，根据比较结果可以确定目标元素在数组的左半部分或右半部分。然后再在相应的半部分中继续查找，直到找到目标元素或者确定目标元素不存在为止。

具体步骤如下：

确定目标元素要查找的范围，通常是整个数组。设定左边界和右边界，左边界为0，右边界为数组长度减1。
计算中间位置的索引，可以使用 (左边界 + 右边界) / 2 的方式计算。如果数组长度是奇数，则取中间位置索引为整数结果；如果数组长度是偶数，则取中间两个位置中靠左的那个索引。
比较中间位置的元素与目标元素的大小。如果中间位置的元素等于目标元素，则查找成功，返回中间位置的索引。如果中间位置的元素大于目标元素，则新的右边界更新为中间位置的索引减1。如果中间位置的元素小于目标元素，则新的左边界更新为中间位置的索引加1。
在新的范围内重复步骤2和步骤3，直到找到目标元素或者确定目标元素不存在为止。如果左边界大于右边界，则表示目标元素不存在。

折半查找的时间复杂度为O(log n)，其中n表示数组的长度。由于每次查找都能将查找范围缩小一半，因此查找效率非常高。但是要求数组必须是有序的，否则折半查找无法正确运行。另外，折半查找只能在静态数组或者静态链表中使用，因为要求可以根据索引访问元素。如果是动态数组或者链表，需要先将其转换为静态形式才能进行折半查找。

（三）插值查找

插值查找是一种在已排序的数组中搜索元素的算法。和二分查找类似，插值查找也是利用了数组有序的特点来进行查找。

插值查找的原理是根据要查找的元素在数组中的分布情况，通过插值来预测要查找的元素可能在的位置。具体步骤如下：

计算要查找的元素与数组第一个元素的差值，并与数组第一个元素到最后一个元素的差值的比例相乘，得到一个比例因子。
将比例因子与数组的长度相乘，得到一个预测的位置。
如果预测的位置上的元素等于要查找的元素，则找到了目标元素；如果预测的位置上的元素大于要查找的元素，则继续在数组的前半部分进行插值查找；如果预测的位置上的元素小于要查找的元素，则继续在数组的后半部分进行插值查找。
重复上述步骤，直到找到目标元素或者确定目标元素不存在。

插值查找的时间复杂度为O(logn)，其中n为数组的长度。插值查找在元素分布比较均匀的情况下，效果较好；但在元素分布不均匀的情况下，插值查找的效果不一定比二分查找好。

三、线性排序算法

所谓排序算法，即通过特定的算法因式将一组或多组数据按照既定模式进行重新排序。这种新序列遵循着一定的规则，体现出一定的规律，因此，经处理后的数据便于筛选和计算，大大提高了计算效率。

对于排序，我们首先要求其具有一定的稳定性，即当两个相同的元素同时出现于某个序列之中，则经过一定的排序算法之后，两者在排序前后的相对位置不发生变化。换言之，即便是两个完全相同的元素，它们在排序过程中也是各有区别的，不允许混淆不清。

（一）选择排序

选择排序（Selection Sort）是一种简单直观的排序算法。它的工作原理是：首先在未排序序列中找到最小（大）元素，存放到排序序列的起始位置，然后，再从剩余未排序元素中继续寻找最小（大）元素，然后放到已排序序列的末尾。以此类推，直到所有元素均排序完毕。

算法步骤

从数列中选出最小（大）元素，存放到序列的起始位置；
遍历剩余数列，重复步骤1，直到排序完整个数列。