20210131-20210113 第1部分引入概念

最新推荐文章于 2022-10-25 12:44:58 发布

Minsky Yi

最新推荐文章于 2022-10-25 12:44:58 发布

阅读量231

点赞数

分类专栏：学习笔记_Python数据结构与算法文章标签：数据结构 python

本文链接：https://blog.csdn.net/MinskyYi/article/details/113482847

版权

学习笔记_Python数据结构与算法专栏收录该内容

10 篇文章 0 订阅

订阅专栏

文章目录

0. 为什么要学习数据结构和算法

没有看过数据结构和算法，有时面对问题可能会没有任何思路，不知如何下手去解决；大部分时间可能解决了问题，可是对程序运行的效率和资源开销没有意识，性能低下；有时会借助别人写好的开源的框架暂时解决了问题，可是遇到性能瓶颈的时候，又不知该如何进行针对性的优化。

数据结构和算法是一名程序开发人员的必备基本功，不是一朝一夕就能成为高手的，需要我们平时不断主动地去学习积累。

1. 引入

先来看一道题：
如果 a+b+c=1000，且 a^2+b2=c^2（a,b,c 为自然数），如何求出所有a、b、c可能的组合?

我最初想到的解法：

answer = []

for a in range(0, 1001):
    for b in range(0, 1001 - a):
        c = 1000 - a - b
        if c > 0:
            if a ** 2 + b ** 2 == c ** 2:
                answer.append((a, b, c))

print(answer)
# 这只是a、b、c都大于等于0的情况；如果也考虑负数，这儿我都不知道该怎么写。

个人心得：
另外我感觉利用计算机解决问题的时候，需要打破上来就想用公式、算法的思路的这种惯性思维，对于小问题、不需要考虑效率的场景。利用计算机远远超越人脑的计算效率和编程里的循环、判断等，可以很容易的解决一些问题。也就是要在编程解决问题时意识到计算机和人脑的不同，计算机它的优点。

1.1 第1次尝试

老师在解决这个问题的时候举例使用了枚举法。

import time

start_time = time.time()

# 注意是三重循环for a in range(0, 1001):
    for b in range(0, 1001):
        for c in range(0, 1001):
            if a**2 + b**2 == c**2 and a+b+c == 1000:
                print("a, b, c: %d, %d, %d" % (a, b, c))

end_time = time.time()
print("elapsed: %f" % (end_time - start_time))
print("complete!")

运行结果：
在这里插入图片描述
注意运行的时间

1.2 算法的提出

算法的概念

计算机程序本质上是一个通过算法来告诉计算机执行一个指定的任务的确切的过程（有哪些步骤，每一个步骤做什么）。一般地，当算法在处理信息时，会从输入设备或数据的存储地址读取数据，把结果写入给输出设备或某个存储地址供以后再调用。

算法是独立存在的一种解决问题的思想和方法。

对于算法而言，实现的语言并不重要，重要的是思想。算法可以基于不同的语言（如C、C++、Python等）有不同的描述，我们现在是在用Python语言进行描述实现。

这里老师推荐了一本书：
在这里插入图片描述可以基于一门语言对数据结构和算法有一些认识之后，再跳出语言，重点关注实现思想层面的，例如《算法导论》、《数据结构与C语言描述》等讲得比这本书更深一些的东西。

算法的5大特性

输入: 算法具有0个或多个输入；
输出: 算法至少有1个或多个输出；
有穷性: 算法在有限的步骤之后会自动结束而不会无限循环，并且每一个步骤在可接受的时间内完成；
确定性：算法中的每一步都有确定的含义，不会出现二义性；
可行性：算法的每一步都是可行的，也就是说每一步都能够执行有限的次数后完成。

20210114

1.3 第二次尝试

老师改良的代码：

import time

start_time = time.time()

# 注意是两重循环
for a in range(0, 1001):
    for b in range(0, 1001-a):
        c = 1000 - a - b
        if a**2 + b**2 == c**2:
            print("a, b, c: %d, %d, %d" % (a, b, c))

end_time = time.time()
print("elapsed: %f" % (end_time - start_time))
print("complete!")

运行结果：
在这里插入图片描述
运行效率大大提高了。

所以可以反思：解决问题有不同的方法，不同方法的效率是不同的。

1.4 算法效率衡量

执行时间反映算法效率

对于同一问题，我们给出了两种解决算法，在两种算法的实现中，我们对程序执行的时间进行了测算，发现两段程序执行的时间悬殊（281秒相比于0.72秒），由此我们可以得出结论：实现算法程序的执行时间可以反应出算法的效率。

单靠时间值绝对可信吗？

假设我们将第二次尝试的算法程序运行在一台配置古老性能低下的计算机中，情况会如何？很可能运行的时间并不会比在我们的电脑中运行算法一的214.583347秒快多少。

单纯依靠运行的时间来比较算法的优劣并不一定是客观准确的！

程序的运行离不开计算机环境（包括硬件和操作系统），这些客观原因会影响程序运行的速度并反应在程序的执行时间上。那么如何才能客观的评判一个算法的优劣呢？

时间复杂度与“大O记法”

我们假定计算机执行算法每一个基本操作的时间是固定的一个时间单位，那么有多少个基本操作就代表会花费多少时间单位。算法对于不同的机器环境而言，确切的单位时间是不同的，但是对于算法进行多少个基本操作（即花费多少时间单位）在规模数量级上却是相同的，由此可以忽略机器环境的影响而客观的反映算法的时间效率。

对于算法的时间效率，我们可以用“大O记法”来表示。

“大O记法”：对于单调的整数函数f，如果存在一个整数函数g和实常数c>0，使得对于充分大的n总有f(n)<=c*g(n)，就说函数g是f的一个渐近函数（忽略常数），记为f(n)=O(g(n))。也就是说，在趋向无穷的极限意义下，函数f的增长速度受到函数g的约束，亦即函数f与函数g的特征相似。

时间复杂度：假设存在函数g，使得算法A处理规模为n的问题示例所用时间为T(n)=O(g(n))，则称O(g(n))为算法A的渐近时间复杂度，简称时间复杂度，记为T(n)。

20210115

如何理解“大O记法”

对于算法进行特别具体的细致分析虽然很好，但在实践中的实际价值有限。对于算法的时间性质和空间性质，最重要的是其数量级和趋势，这些是分析算法效率的主要部分。而计量算法基本操作数量的规模函数中那些常量因子可以忽略不计。例如，可以认为3n^2和100n2属于同一个量级，如果两个算法处理同样规模实例的代价分别为这两个函数，就认为它们的效率“差不多”，都为n^2级。

最坏时间复杂度

分析算法时，存在几种可能的考虑：

算法完成工作最少需要多少基本操作，即最优时间复杂度
算法完成工作最多需要多少基本操作，即最坏时间复杂度
算法完成工作平均需要多少基本操作，即平均时间复杂度

对于最优时间复杂度，其价值不大，因为它没有提供什么有用信息，其反映的只是最乐观最理想的情况，没有参考价值。
对于最坏时间复杂度，提供了一种保证，表明算法在此种程度的基本操作中一定能完成工作。
对于平均时间复杂度，是对算法的一个全面评价，因此它完整全面的反映了这个算法的性质。但另一方面，这种衡量并没有保证，不是每个计算都能在这个基本操作内完成。而且，对于平均情况的计算，也会因为应用算法的实例分布可能并不均匀而难以计算。

因此，我们主要关注算法的最坏情况，亦即最坏时间复杂度。

时间复杂度的几条基本计算规则

基本操作，即只有常数项，认为其时间复杂度为O(1)；
顺序结构，时间复杂度按加法进行计算；
循环结构，时间复杂度按乘法进行计算；
分支结构，时间复杂度取最大值；
判断一个算法的效率时，往往只需要关注操作数量的最高次项，其它次要项和常数项可以忽略；
在没有特殊说明时，我们所分析的算法的时间复杂度都是指最坏时间复杂度。

【例】

if a**2 + b**2 == c**2 and a+b+c == 1000:
    print("a, b, c: %d, %d, %d" % (a, b, c))

上面的这段代码就是分支结构，那么这里时间复杂度的计算就是：
T(n) = 1 + max(1, 0)

1.5 算法分析

注：下面的计算都是在不细分的情况下，例如不细分 a**2 、b**2、==这些计算。

第一次尝试的算法核心部分

for a in range(0, 1001):
    for b in range(0, 1001):
        for c in range(0, 1001):
            if a**2 + b**2 == c**2 and a+b+c == 1000:
                print("a, b, c: %d, %d, %d" % (a, b, c))

时间复杂度：T(n) = O(n*n*n) = O(n3)

第二次尝试的算法核心部分

for a in range(0, 1001):
    for b in range(0, 1001-a):
        c = 1000 - a - b
        if a**2 + b**2 == c**2:
            print("a, b, c: %d, %d, %d" % (a, b, c))

时间复杂度：T(n) = O(n*n*(1+1)) = O(n*n) = O(n2)

由此可见，我们尝试的第二种算法要比第一种算法的时间复杂度好很多。

1.6 常见时间复杂度

执行次数的函数表示举例	阶	非正式术语
12	O(1)	常数阶
2n+3	O(n)	线性阶
$3n^2+2n+1$	O(n^2)	平方阶
$5log_2n+20$	O( $log_n$ )	对数阶
$2n+3nlog_2n+19$	O( $nlog_n$ )	$nlog_n$ 阶
$6n^3+2n^2+3n+4$	O( $n^3$ )	立方阶
$2^n$	O( $2^n$ )	指数阶

注意：经常将 $log_2n$ （以2为底的对数）简写成logn

常见时间复杂度之间的关系

在这里插入图片描述
消耗的时间从小到大：
O(1) < O(logn) < O(n) < O(nlogn) < O( $n^2$ ) < O( $n^3$ ) < O( $2^n$ ) < O(n!) < O( $n^n$ )

练习：时间复杂度练习( 参考算法的效率规则判断 )
O(5)
O(2n + 1)
O(n²+ n + 1)
O(3n³+1)

1.7 Python 内置的性能分析功能

timeit 模块

timeit 模块可以用来测试一小段 Python 代码的执行速度。

class timeit.Timer(stmt=‘pass’, setup=‘pass’, timer=)

Timer 是测量小段代码执行速度的类。
stmt 参数是要测试的代码语句（statment）；
setup 参数是运行代码时需要的设置；
timer 参数是一个定时器函数，用于时间计量，与计算机的操作系统有关。

timeit.Timer.timeit(number=1000000)

Timer 类中测试语句执行速度的对象方法。number 参数是测试代码时的测试次数，默认为1000000次。方法返回执行代码对应次数的耗时，一个 float 类型的秒数。

list的操作测试

这里相当于是对一个调用的函数的效率的测试，函数是基本计算操作的复合体。

def test1():
   l = []
   for i in range(1000):
      l = l + [i]
def test2():
   l = []
   for i in range(1000):
      l.append(i)
def test3():
   l = [i for i in range(1000)]
def test4():
   l = list(range(1000))

from timeit import Timer

t1 = Timer("test1()", "from __main__ import test1")
print("concat ",t1.timeit(number=1000), "seconds")
t2 = Timer("test2()", "from __main__ import test2")
print("append ",t2.timeit(number=1000), "seconds")
t3 = Timer("test3()", "from __main__ import test3")
print("comprehension ",t3.timeit(number=1000), "seconds")
t4 = Timer("test4()", "from __main__ import test4")
print("list range ",t4.timeit(number=1000), "seconds")

# ('concat ', 1.7890608310699463, 'seconds')
# ('append ', 0.13796091079711914, 'seconds')
# ('comprehension ', 0.05671119689941406, 'seconds')
# ('list range ', 0.014147043228149414, 'seconds')

pop操作测试

from timeit import Timer

x = list(range(2000000))
pop_zero = Timer("x.pop(0)","from __main__ import x")
print("pop_zero ", pop_zero.timeit(number=1000), "seconds")
x = list(range(2000000))
pop_end = Timer("x.pop()","from __main__ import x")
print("pop_end ", pop_end.timeit(number=1000), "seconds")

# ('pop_zero ', 1.620168, 'seconds')
# ('pop_end ', 9.930000000002437e-05, 'seconds')

从结果可以看出，pop最后一个元素的效率远远高于pop第一个元素

可以自行尝试下 list 的 append(value) 和 insert(0,value) 的效率比较。

list内置操作的时间复杂度

在这里插入图片描述

dict内置操作的时间复杂度

在这里插入图片描述

1.8 数据结构

我们如何用 Python 中的类型来保存一个班的学生信息？如果想要快速的通过学生姓名获取其信息呢？

实际上当我们在思考这个问题的时候，我们已经用到了数据结构。列表和字典都可以存储一个班的学生信息，但是想要在列表中获取一名同学的信息时，就要遍历这个列表，其时间复杂度为 O(n)，而使用字典存储时，可将学生姓名作为字典的键，学生信息作为值，进而查询时不需要遍历便可快速获取到学生信息，其时间复杂度为 O(1)。

我们为了解决问题，需要将数据保存下来，然后根据数据的存储方式来设计算法实现处理，而数据的存储方式不同会导致需要不同的算法进行处理。我们希望算法解决问题的效率越快越好，于是我们就需要考虑数据如何保存的问题，这就是数据结构。

在上面的问题中，我们可以选择 Python 中的列表或字典来存储学生信息。列表和字典就是 Python 内建的帮我们封装好的两种数据结构。

概念

数据是一个抽象的概念，将其进行分类后得到程序设计语言中的基本类型。如：int，float，char 等。数据元素之间不是独立的，而是存在特定的关系的，这些关系便是结构。数据结构指数据对象中数据元素之间的关系。

Python 给我们提供了很多现成的数据结构类型，这些是系统自己已经定义好的，不需要我们自己去定义的数据结构叫做 Python 的内置数据结构，比如列表、元组、字典。而有些数据组织方式，Python 系统里面没有提前定义，需要我们自己去定义实现的这些数据的组织方式，我们称之为 Python 的扩展数据结构，比如栈，队列等。

算法与数据结构的区别

数据结构只是静态的描述了数据元素之间的关系。

高效的程序需要在数据结构的基础上设计和选择算法。

程序 = 数据结构 + 算法

总结：算法是为了解决实际问题而设计的，数据结构是算法处理的问题的载体。

20210131

抽象数据类型(Abstract Data Type)

抽象数据类型(ADT)的含义是指一个数学模型以及定义在此数学模型上的一组操作。即把数据类型和数据类型上的运算捆绑在一起，进行封装。引入抽象数据类型的目的是把数据类型的表示和数据类型上运算的实现与这些数据类型和运算在程序中的引用隔开，使它们相互独立。

【例】通过类定义抽象数据类型和它的运算

class Student:

    def adds(self):
        # 增加学生条目；
        pass

    def pop(self):
        # 删除学生条目；
        pass

    def sort(self):
        # 将学生名单进行分类；
        pass

    def modify(self):
        # 修改学生条目信息；
        pass