内存的工作原理
计算机就像是很多抽屉的集合体,每个抽屉都有地址。
需要将数据存储到内存时,你请求计算机提供存储空间,计算机给你一个存储地址。需要存储多项数据时,有两种基本方式——数组和链表。但它们并非都适用于所有的情形,因此知道它们的差别很重要。
数组
使用数组意味着计算机提供的存储空间是相连的
使用数组意味着所有待办事项在内存中都是相连的(紧靠在一起的)。现在假设你要添加第四个待办事项,但后面的那个抽屉放着别人的东西!
在这种情况下,你需要请求计算机重新分配一块可容纳4个待办事项的内存,再将所有待办事项都移到那里。在数组中添加新元素也可能很麻烦。如果没有了空间,就得移到内存的其他地方,因此添加新元素的速度会很慢。一种解决之道是“预留座位”:即便当前只有3个待办事项,也请计算机提供10个位置,以防需要添加待办事项。这样,只要待办事项不超过10个,就无需转移。这是一个不错的权变措施,但它存在如下两个缺点。
- 你额外请求的位置可能根本用不上,这将浪费内存。你没有使用,别人也用不了。
- 待办事项超过10个后,你还得转移。
链表
链表中的元素可存储在内存的任何地方。链表的每个元素都存储了下一个元素的地址,从而使一系列随机的内存地址串在一起。
这犹如寻宝游戏。你前往第一个地址,那里有一张纸条写着“下一个元素的地址为123”。因此,你前往地址123,那里又有一张纸条,写着“下一个元素的地址为847”,以此类推。与此类似,在链表中添加元素很容易:只需将其放入内存,并将其地址存储到前一个元素中。
但是链表存在读取的问题。**在需要读取链表的最后一个元素时,你不能直接读取,因为你不知道它所处的地址,必须先访问元素#1,从中获取元素#2的地址,再访问元素#2并从中获取元素#3的地址,以此类推,直到访问最后一个元素。需要同时读取所有元素时,链表的效率很高:你读取第一个元素,根据其中的地址再读取第二个元素,以此类推。但如果你需要跳跃,链表的效率真的很低。数组与此不同:你知道其中每个元素的地址。**例如,假设有一个数组,它包含五个元素,起始地址为00,那么元素#5的地址是多少呢?只需执行简单的数学运算就知道:04。
需要随机地读取元素时,数组的效率很高,因为可迅速找到数组的任何元素。在链表中,元素并非靠在一起的,你无法迅速计算出第五个元素的内存地址,而必须先访问第一个元素以获取第二个元素的地址,再访问第二个元素以获取第三个元素的地址,以此类推,直到访问第五个元素。
术语
数组的元素带编号,编号从0而不是1开始。
元素的位置称为索引 。因此,不说“元素20的位置为1”,而说“元素20位于索引1处”。
下面列出了常见的数组和链表操作的运行时间。
在中间插入
需要在中间插入元素时,数组和链表哪个更好呢?使用链表时,插入元素很简单,只需修改它前面的那个元素指向的地址。而使用数组时,则必须将后面的元素都向后移。如果没有足够的空间,可能还得将整个数组复制到其他地方!因此,当需要在中间插入元素时,链表是更好的选择。
删除
如果你要删除元素呢?链表也是更好的选择,因为只需修改前一个元素指向的地址即可。而使用数组时,删除元素后,必须将后面的元素都向前移。不同于插入,删除元素总能成功。如果内存中没有足够的空间,插入操作可能失败,但在任何情况下都能够将元素删除。下面是常见数组和链表操作的运行时间。
需要指出的是,仅当能够立即访问要删除的元素时,删除操作的运行时间才为O (1)。通常我们都记录了链表的第一个元素和最后一个元素,因此删除这些元素时运行时间为O (1)。数组和链表哪个用得更多呢?显然要看情况。但数组用得很多,因为它支持随机访问。有两种访问方式:随机访问和顺序访问 。顺序访问意味着从第一个元素开始逐个地读取元素。链表只能顺序访问:要读取链表的第十个元素,得先读取前九个元素,并沿链接找到第十个元素。随机访问意味着可直接跳到第十个元素。本书经常说数组的读取速度更快,这是因为它们支持随机访问。很多情况都要求能够随机访问,因此数组用得很多。数组和链表还被用来实现其他数据结构。
选择排序
假设我们需要将一个包含N个数的乱序数组从小到大排列,我们要怎么实现?我们可以首先找出这N个数中的最小值,将它放入一个新建的数组里,再在剩余N-1个数里找最小值,再添加在新建数组里索引为1处,以此类推。
第一次需要检查n 个元素,但随后检查的元素数依次为n - 1, n – 2, …, 2和1。平均每次检查的元素数为1/2 × n ,因此运行时间为O (n × 1/2 × n )。但大O表示法省略诸如1/2这样的常数(有关这方面的完整讨论,请参阅第4章),因此简单地写作O (n × n )或O (n^2 )。选择排序是一种灵巧的算法,但其速度不是很快。快速排序是一种更快的排序算法,其运行时间为O (n log n ),这将在下一章介绍。
python3代码实现:
'''选择排序'''
'''将一组乱序的数组从小到大排列'''
def findsmallest(arr):
''' find the index of the smallest value'''
smallest = arr[0]
smallest_index = 0
for i in range(1,len(arr)):
if arr[i] < smallest:
smallest = arr[i]
smallest_index = i
return smallest_index
def selectionsort(arr):
'''选择排序,建立一个新数组,将最小值依次放入'''
sortrd_array = []
for i in range(len(arr)):
smallest_index = findsmallest(arr)
sortrd_array.append(arr[smallest_index])
arr.pop(smallest_index)
return sortrd_array
test_array = [2,8,5,7,9,4]
print(selectionsort(test_array))
小结
- 计算机内存犹如一大堆抽屉。
- 需要存储多个元素时,可使用数组或链表。
- 数组的元素都在一起。
- 链表的元素是分开的,其中每个元素都存储了下一个元素的地址。
- 数组的读取速度很快。
- 链表的插入和删除速度很快。
- 在同一个数组中,所有元素的类型都必须相同(都为int、double等)。