数据结构与算法(绪论)

作为一个准程序员,在读本科的时候,就一直被老师不停的灌输数据机构与算法的重要性,但是好像我们从来就没遇到过真正棘手的需要通过数据结构去解决的问题,可能唯一再听到它的时候就是找工作实习的时候会被面试官提问,因此我们似乎觉得数据结构没那么重要,而且又因为各种编程语言,尤其是python,各种内建的数据结构好像是万能的,在运算量、内存占用等都没到一定程度的时候,好像所有的数据结构都能完成要求的功能。

但是当我们真正去了解这些数据结构背后的实现的时候,我们才会发现那些看似完美的数据结构,也未必是那么完美。网上有人提问有了python是不是不用再学数据结构了?这里很赞同第二个人的答案。

"虽然当下大部分流行的高级语言都自带了对常见数据结构的支持,而且多半你无法给出更加优秀的实现,但是继续学习数据结构的动力在于:它让你学会选择一个正确且合适的数据结构去解决一个具体的问题”

或者到更具体一点的问题: 

1、Python的list是如何实现的,为什么会有近乎无限大小的空间?为什么专门有一个固定长度且不能修改的数据结构tuple而不全用list?

2、list的append和insert的时间复杂度一样么?

3、Python 的 dict 是怎么回事,为什么可以用字符串数字等等东西来索引?是怎么搜索的?在 dict 中找一个元素,和在 list 里面找一个元素有什么区别?


所有的数据结构书籍开始之前都会介绍一大堆算法的概念,甚至是不厌其烦的介绍从实际问题到完成程序的过程,当然为了知识的完整性,这样显然是没有问题的,但是博主尽量省略一些繁琐的过程。

这里只是简单的通过实际的例子来介绍算法到程序的实现过程。

现在假设一个实际的问题:求出任一非负实数的平方根?

下面我们来看一下:从计算的角度来看,这种问题假设是有一定的缺陷的:对于给定的数值,即使它只包含有穷位小数,其平方根通常也是无理数,不能写成数字的有穷表示形式,计算都需要在有穷步内完成,应该是一个有穷过程。因此一般而言,通过计算只能得到实数的平方根的近似值,熟悉高等数学的应该知道,高数第一章就是关于极限的定义,而这里的近似值估计的过程可以看做为如下问题:对任意非负实数x,设法找到一个实数y,使得|y*y-x|<e,而这里e则是允许误差。

人们提出一些求平方根的算法,这里采用一种牛顿迭代法的算法,描述如下:

1、对给定正实数x和允许误差e,令变量y取任意正实数值,如令y=x;

2、如果y*y与x足够接近,即|y*y-x|<e,计算结果并把y作为结果;

3、取z=(y+x/y)/2;

4、将z作为y的新值,回到步骤2。

算法的具体推倒过程用到均值不等式和高数中的极限,通过这个算法我们可以写出如下的实现代码:

def sqrt(x):
    y = 1.0
    while abs(y * y - x) > 1e-10:
        y = (y + x/y)/2
    return y

不去深究牛顿迭代法与其他求平方根算法的优劣,通过这个问题,可以感受到算法到程序的实现过程以及平时工作中我们没有注意到的一些点。

既然提到不同算法之间的比较,那就需要对不同的算法提出统一的评价标准,而在实际过程中一般会从时间复杂度和空间复杂度来做考量。人们通过某个问题的某种规模n为变量,反映出这个算法在处理规模n的问题实例时需要付出的时间(或空间)代价。同时在度量算法的代价(比如时间复杂度)时,最常关注的是最坏情况的时间复杂度和平均时间复杂度。

对于实际的问题时,人们可能有具体的评价标准,但是对于抽象或者数据量庞大的算法,人们无法做出精确度量。在这种情况下只能退而求其次,设法估计算法复杂度的量级。

对应于高等数学中高阶和低阶的度量,一般采用相同的记法。在算法和数据结构领域,人们常用如下几组函数来反映复杂度:

           O(1),O(logn),O(n),O(nlogn),O(n^2),O(n^3),O(2^n)

在实际学习中,我们可能限于运算的场景和规模,对于算法复杂度没有那么明显的感知。通常可以把算法复杂度分级理解为高数中对于无穷大的阶,反映了规模在n趋向于无穷大的过程中,算法代价增长的速度。举两个例子:

1、做天气预报的程序,必须今天下午完成对明天上午的天气预报计算。如果计算时间超过明天,那么这个算法则是毫无意义的。

2、假设解决某个问题具体问题的基本操作每秒钟可以玩完成10^6次,需要处理的问题规模n是100。那么问题复杂度是O(n)和O(2^n)的不同算法带来的时间将是天差地别。

例子1中表明由于场景的需求,对于算法常量级的改变也是很有意义的。而例子2则表明不同时间复杂度的算法带来的结果是相差很大的。更为日常的场景,我们在使用手机时,摄像头对焦的速度和人脸识别的速度在不同手机间也是有差别的,而这也会带来用户体验上的差异。

下面具体到python程序的复杂度,以一些常见数据结构的时间开销和空间开销来稍作举例,其中的n均是指有关结构的元素个数。

1、构造操作,如构造新的list,set等。构造新的空结构(空表,空集合等)是常量时间,但是构造一个包含n个元素的结构,则至少需要O(n)时间。统计说明,分配长度为n个元素的代码块的时间代价为O(n)。

2、一些list操作的效率:列表元素的访问和元素修改(基于索引)是常量时间操作,但是一般的加入/删除操作(列表的操作是保序的,需要移动元素)都是O(n)时间操作,尾端的加入/删除是O(1)操作。

3、字典dict的效率:针对字典的操作一般是加入新的键值对和基于键查找值。它们的最坏的情况复杂度是O(n),平均时间复杂度是O(1)。

4、相对而言,列表和元组是比较简单的数据结构。集合和字典由于支持快速查询等操作,其空间结构更加复杂,空间开销也更高。包含n个元素的集合和字典,至少需要占用O(n)的存储空间。

需要格外注意的是,python中的各种组合数据对象都没有预设的最大元素个数(例如list的实现就是采用分离式技术实现的动态顺序表)。在实际使用中,这些结构能根据元素个数的增长自动扩充存储空间。从空间占用的角度来看,其实际开销在存续期间可能更大,但通常是不会自动缩小(即使后来元素变少了)。举个例子,假设程序里建了一个表,而后又不断加入元素导致表变得很大,而后又不断的删除元素,后来表的元素变得很少,但是占用的存储空间并不会减少。


在计算机程序中,算法和数据结构是紧密相连的,算法的实现离不开数据的组织方式,而数据结构的高效组织则能支持处理它们的高效算法,数据结构上的操作也需要通过算法实现。在计算中一般将数据结构划分为:

1、结构性的数据结构,如线性结构、树结构和图结构,这些数据结构的最重要的特征是它们的结构,即对其数据元素之间的关系都做了一些规定,元素之间确实存在某种关系;

2、功能性数据结构,如栈、队列等,它们并没有对其元素的相互关系提出任何结构性的规定,而是要求实现某种计算中非常有用的功能。作为可以包含一批数据元素的结构,最基本的要求就是支持元素的存储和使用(即访问)。而且这些不同的数据结构各有不同的功能方面的特点,比如栈和队列是使用最多的缓冲存储结构。

数据结构研究的就是数据之间的关联和组合的形式,在计算机内存里表示数据元素之间的联系通常采用如下两种基本技术(具体的在后面会讲到):

1、利用数据元素的存储位置隐式的表示,也称为元素的顺序表示。由于内存是单元的线性序列,知道了前一个元素的位置及大小(存储占用量),就能计算下一个元素的位置。如果存储的是一系列大小相同的元素,就可以利用公式直接计算出序列中任何一个元素的位置;

2、把数据元素之间的联系也看做一种数据,显式的保存在内存中。用这种方式可以表示数据元素之间任意复杂的关系,因此这种技术的功能也更强大。

这里对python语言中与数据表示有关的内容做一些介绍:

高级语言中的变量(全局变量、函数的局部变量和参数)是内存及其地址的抽象。变量本身也需要在内存中安排位置,每个变量占用若干存储单元。

在python程序里,可以通过初始化(或提供参数)给变量(或函数参数)约束一个值,还可以通过赋值修改变量的值。这里的值就是对象,给变量约束一个对象,就是把该对象的标识(内存位置)存入该变量,例如a =1,就是把1这个对象在内存的地址赋值给a,在调用的时候,是通过a里面存储的1的内存地址找到对象1。

可以理解为:把该值的内存地址赋值给该变量,在变量中保存值(对象)的引用(即地址)。采用这种方式,变量所需要的存储空间大小一致,因为其中只需要保存一个引用(地址),这种方式被称为引用语义。

有些语言采用的不是这种方式,它们把变量的值直接保存在变量的存储区中,称为值语义,这样一个整数类型的变量就需要保存在一个整数所需的空间,一个浮点数变量就需要足够的空间存储一个浮点数。如果一个变量中需要保存很大的数据对象,它就需要占据更大的存储空间,例如C语言就是采用的值语义。

python语言的实现是基于一套精心设计的链接结构。变量与值对象的关联通过链接的方式实现,对象之间的联系同样也通过链接。


最后简单介绍一下python的几个标准数据类型,具体的在之后会详细的讲解:

list(列表):列表是使用最多的组合数据类型、list对象可以包含任意多个任意类型的元素,元素访问和修改都是常量时间操作。此外,list对象是可变对象,在对象的存在期间可以任意的加入和删除元素。因此程序里经常需要从空表开始,通过逐步加入元素的方法构造任意大的表。

tuple(元组):在保存元素和元素访问方面的性质和列表类似,但其对象是不可变对象,只能在创建的时候构造出来,不能逐步构造,由于这种数据类型的性质,因此使用较少。

dict(字典):支持基于键的数据存储和检索,这里的键只能是不变对象(例如:元组、字符串,但不能是列表)。如果键是组合对象,其元素必须是不变对象。在一个字典里面可以容纳任意多的键值对,支持高效检索(平均时间为O(1))。



参考资料:https://www.zhihu.com/question/25335314

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值