数据结构与算法
通过数据结构的学习,我们希望让大家能理解其概念,掌握常用的数据结构和算法
一.什么是算法?
回答:下棋布局/孙子兵法
通过数据结构的学习,我们希望让大家能理解其概念,掌握常用的数据结构和算法
引入
先来看一道题:
如果 a+b+c=1000,且 a2+b2=c^2(a,b,c 为自然数),如何求出所有a、b、c可能的组合?
第一次尝试
import time
s = time.time()
for a in range(0, 1001):
for b in range(0, 1001):
for c in range(0, 1001):
if a+b+c==1000 and a**2+b**2==c**2:
print('a,b,c:%d,%d,%d',(a,b,c))
e = time.time()
print("times:%d", (e-s)) # 108.7706606388092
1.1 算法的概念
算法是计算机处理信息的本质,因为计算机程序本质上是一个算法来告诉计算机确切的步骤来执行一个指定的
任务。一般地,当算法在处理信息时,会从输入设备或数据的存储地址读取数据,把结果写入输出设备或某个
存储地址供以后再调用。
算法是独立存在的一种解决问题的方法和思想。
对于算法而言,实现的语言并不重要,重要的是思想。
算法可以有不同的语言描述实现版本(如C描述、C++描述、Python描述等),我们现在是在用Python语言进
行描述实现。
1.2算法的五大特性
1.输入: 算法具有0个或多个输入
2.输出: 算法至少有1个或多个输出
3.有穷性: 算法在有限的步骤之后会自动结束而不会无限循环,并且每一个步骤可以在可接受的时间内完
成
4.确定性:算法中的每一步都有确定的含义,不会出现二义性
5.可行性:算法的每一步都是可行的,切忌天马行空,也就是说每一步都能够执行有限的次数完成
第二次尝试
import time
s = time.time()
for a in range(0, 1001):
for b in range(0, 1001):
c = 1000-a-b
if a+b+c==1000 and a**2+b**2==c**2:
print('a,b,c:%d,%d,%d',(a,b,c))
e = time.time()
print("times:%d", (e-s)) # 0.8866539001464844
1.3 算法效率的衡量
靠执行时间反应算法效率
对于同一问题,我们给出了两种解决算法,在两种算法的实现中,我们对程序执行的时间进行了测算,发现两
段程序执行的时间相差悬殊(214.583347秒相比于0.182897秒),由此我们可以得出结论:实现算法程序的
执行时间可以反应出算法的效率,即算法的优劣
1.4 单靠时间值绝对可信吗?
假设我们将第二次尝试的算法程序运行在一台配置古老性能低下的计算机中,情况会如何?很可能运行的时间
并不会比在我们的电脑中运行算法一的214.583347秒快多少。
单纯依靠运行的时间来比较算法的优劣并不一定是客观准确的!
程序的运行离不开计算机环境(包括硬件和操作系统),这些客观原因会影响程序运行的速度并反应在程序的
执行时间上。那么如何才能客观的评判一个算法的优劣呢?
1.5 时间复杂度
我们假定计算机执行算法每一个基本操作(执行步骤)的时间是固定的一个时间单位,那么有多少个基本操作
就代表会花费多少时间单位。然而对于不同的机器环境而言,确切的单位时间是不同的,但是对于算法进行多
少个基本操作(即花费多少时间单位)在规模数量级上却是相同的,由此可以忽略机器环境的影响而客观的反
应算法的时间效率。
时间和运算数量的关系:总时间 = 基本运算操作(步骤)*每一个运行操作的运行时间
所以基本操作的数量总和就叫时间复杂度 时间复杂度就是描述算法效率的衡量
1.6 如何理解“大O记法”
对于算法进行特别具体的细致分析虽然很好,但在实践中的实际价值有限。对于算法的时间性质和空间性质,
最重要的是其数量级和趋势,这些是分析算法效率的主要部分。而计量算法基本操作数量的规模函数中那些常
量因子可以忽略不计。例如,可以认为3n2和100n2属于同一个量级,如果两个算法处理同样规模实例的代
价分别为这两个函数,就认为它们的效率“差不多”,都为n^2级。
最坏时间复杂度
分析算法时,存在几种可能的考虑:
1.算法完成工作最少需要多少基本操作,即最优时间复杂度
2.算法完成工作最多需要多少基本操作,即最坏时间复杂度
3.算法完成工作平均需要多少基本操作,即平均时间复杂度
对于最优时间复杂度,其价值不大,因为它没有提供什么有用信息,其反映的只是最乐观最理想的情况,没有
参考价值。
对于最坏时间复杂度,提供了一种保证,表明算法在此种程度的基本操作中一定能完成工作。
对于平均时间复杂度,是对算法的一个全面评价,因此它完整全面的反映了这个算法的性质。但另一方面,这
种衡量并没有保证,不是每个计算都能在这个基本操作内完成。而且,对于平均情况的计算,也会因为应用算
法的实例分布可能并不均匀而难以计算。
1.7 时间复杂度的几条基本计算规则
基本操作,即只有常数项,认为其时间复杂度为O(1)
上述第一次算法if判断和print不细分的话就是2个基本步骤,细分就是10个,为符合大O表示法,不管
为2为10都为常数项,常数项指在处理规模N时,不管你步骤为多少都不会对N规模本身有影响
整个程序的运行操作由各种不同的基本操作组成,基本操作的累加就是程序的总步骤,所以在写程序的时候如
果可以控制程序的执行流程,就可以程序效率
1.顺序结构,时间复杂度按加法进行计算
2.循环结构,时间复杂度按乘法进行计算
3.分支(条件)结构,时间复杂度取最大值
判断一个算法的效率时,往往只需要关注操作数量的最高次项,其它次要项和常数项可以忽略
在没有特殊说明时,我们所分析的算法的时间复杂度都是指最坏时间复杂度
算法分析
1.第一次尝试的算法核心部分
import time
s = time.time()
for a in range(0, 1001):
for b in range(0, 1001):
for c in range(0, 1001):
if a+b+c==1000 and a**2+b**2==c**2: # 1(为方便计算按1进行计算) 8
print('a,b,c:%d,%d,%d',(a,b,c)) # 1(为方便计算按1进行计算) 3
e = time.time()
print("times:%d", (e-s)) # 108.7706606388092
'''
T = 1000*1000*1000*(1+1)
= 1000^3*2
=N^3 *2 N是规模数据级 2是系数(常量因子)
=N^3 我们衡量算法的时候只关注他最特征的东西(规模数量)
'''
2.第二次尝试的算法核心部分
import time
s = time.time()
for a in range(0, 1001):
for b in range(0, 1001):
c = 1000-a-b
if a+b+c==1000 and a**2+b**2==c**2:
print('a,b,c:%d,%d,%d',(a,b,c))
e = time.time()
print("times:%d", (e-s)) # 0.8866539001464844
'''
T = 1000*1000*(1+1+1)
= 1000^2*3
= N^2
'''
二,什么是数据结构?
- 数据
数据即信息的载体,是能够输入到计算机中并且能被计算机识别、存储和处理的。 - 数据元素
数据元素是数据的基本单位,又称之为记录(Record)。一般数据元素由若干基本项组成。’ - 数据结构
数据结构指的是数据元素及数据元素之间的相互关系,或组织数据的形式。
2.1 数据之间的结构关系
- 逻辑结构
表示数据之间的抽象关系(如邻接关系、从属关系等),按每个元素可能具有的直接前趋数和直接后继数将逻辑结构分为“线性结构”和“非线性结构”两大类。 - 存储结构
是逻辑结构在计算机中的具体实现方法,分为顺序存储方法、链接存储方法、索引存储方法、散列存储方法。
2.2 逻辑结构(关系)
-
特点:
只是描述数据结构中数据元素之间的联系规律
是从具体问题中抽象出来的数学模型),是独立于计算机存储器的(与机器无关) -
逻辑结构分类
线性结构(一对一):
对于数据结构课程而言,简单地说,线性结构是n个数据元素的有序(次序)集合。
集合中必存在唯一的一个"第一个元素";
集合中必存在唯一的一个"最后的元素";
除最后元素之外,其它数据元素均有唯一的"后继";(每个元素都有唯一的后面一个元素,一对一)
除第一元素之外,其它数据元素均有唯一的"前驱"。
树形结构(层次结构)(一对多):
树形结构指的是数据元素之间存在着“一对多”的树形关系的数据结构,是一类重要的非线性数
据结构。在树形结构中,树根结点没有前驱结点,其余每个结点有且只有一个前驱结点。叶子
结点没有后续结点,其余每个结点的后续节点数可以是一个也可以是多个。
图状结构(网状结构)(多对多):
图是一种比较复杂的数据结构。在图结构中任意两个元素之间都可能有关系,也就是说这是一
种多对多的关系。
其他结构:
除了以上几种常见的逻辑结构外,数据结构中还包含其他的结构,比如集合等。有时根据实际
情况抽象的模型不止是简单的某一种,也可能拥有更多的特征。
2.3 存储结构(关系)
-
特点:
是数据的逻辑结构在计算机存储器中的现象(或表示)
存储结构是通过计算机程序来实现的,因而是依赖于具体的计算机语言的。 -
基础存储结构
顺序存储:
顺序存储(Sequential Storage):将数据结构中各元素按照其逻辑顺序存放于存储器一片连续的存储空间中。
优点:紧密排列,在内存中开辟了连续的存储空间,查询的时候效率高
缺点:插入时间的会牵涉到数据的迁移,所以插入数据效率低链式存储
链式存储(Linked Storage):将数据结构中各元素分布到存储器的不同点,用记录下一个结点位置的方式建立它们之间的联系,由此得到的存储结构为链式存储结构。
优点:对存储空间的利用更加灵活,减少数据插入的时候数据的迁移
缺点:遍历取值的时候查找的速度会比较慢,需要人为排列记录下一个数据的结点位置