数据结构与算法之美 05

最新推荐文章于 2023-12-08 17:05:14 发布

Maggie_77

最新推荐文章于 2023-12-08 17:05:14 发布

阅读量218

点赞数

分类专栏：个人记录

个人记录专栏收录该内容

5 篇文章 0 订阅

订阅专栏

数组：为什么很多编程语言中数组都从0开始编号？

如何实现随机访问？

数组是一种线性表数据结构。它用一组连续的内存空间，来存储一组具有相同类型的数据

线性表（linear list）是数据排成像一条线一样的结构。每个线性表上的数据最多只有前和后两个方向。（链表，队列，栈都属于线性表结构）与其对立的概念是非线性表，比如二叉树、堆、图等，在非线性表中，数据之间并不是简单的前后关系。

连续的内存空间，相同类型的数据。正是这两个限制，才具有“随机访问”的特性，同时也让数组的很多操作变得非常低效，如数组中插入、删除一个数据，为了保证连续性，需要做大量的数据搬移工作。
那么数组如何实现根据下标随机访问数组元素呢？拿一个长度为10的int类型的数组举例int[]a = new int[10]。如果计算机给数组a[10]分配一块连续内存空间1000-1039，其中，内存块的首地址为base_address = 1000。这时，计算机给每个内存单元分配一个地址，计算机通过地址来访问内存中的数据，当计算机需要随机访问数组中的某个元素时，它会通过寻址公式：a[i]_address = base_address + i * data_type_size 来计算该元素存储的内存地址。其中data_type_size表示数组中每个元素的大小。

低效的“插入”和“删除”

前面说到，数组为了保持内存数据的连续性，会导致插入、删除这两个操作比较低效，现在详细说一下，什么会导致低效、有哪些改进方法。

对于插入操作：假设数组的长度为n，现在需要将一个数据插入到数组中的第k个位置。为了把第k个位置腾出来，给新的数据，我们需要将第k-n这部分的元素都顺序往后挪一位。（若在数组末尾插入元素，则时间复杂度为O(1)，若在数组开头插入元素，时间复杂度为O(n)，在每个位置插入元素的概率相同，所以平均情况时间复杂度为(1+2+...+n)/n = O(n)）。
如果数组中的数据是有序的，那么在某个位置插入新元素是，必须按照刚才的方法搬移k之后的所有数据。但是，如果数组中存储的数据并没有规律，数组只是被当做一个存储数据的集合，为了避免大规模的数据搬移，我们可以直接将第k为的数据搬移到数组元素的最后，把新的元素直接放入第k个位置。利用这种处理技巧，在特定场景下，在第k个位置插入一个元素的时间复杂度可以降为O(1)。这个处理思想在快排中也会用到。

对于删除操作：同样的，删除第k个位置的数据，为了内存的连续性，也需要大量搬移数据。其最好情况时间复杂度为O(1)；最坏情况时间复杂度为O(n)；平均情况时间复杂度为O(n)。
在某些特殊场景下，我们并不一定要追求数组中数据的连续性。如果我们将多次删除操作集中在一起执行，删除效率会高很多。例如数组a[10]中存储8个元素：a,b,c,d,e,f,g,h。现在要依次删除a,b,c三个元素，为了避免d,e,f,g,h被搬移三次，我们可以先记录下已经删除的数据。每次删除操作并不是真正的搬移数据，只是记录数据已被删除。当数组没有更多空间存储数据时，我们再触发执行一次真正的删除操作，这样就大大减少了删除操作导致的数据搬移。
JVM标记清楚垃圾回收算法的核心思想就在于此。

警惕数据的访问越界问题
在一下C语言代码中：

int main(int argc, char* argv[])
{
    int i = 0;
    int arr[3] = {0};
    for( ; i<=3; i++)
    {
        arr[i] = 0;
        printf("hello world\n");
    }
    return 0;
}

这段代码的运行结果并非打印三行“hello world”，而是无限打印“hello world”。因为数组大小为3，而for循环的结束条件错写为i<=3而非i<3，所以当i=3时，数组a[3]访问越界。在C语言中，只要不是访问受限的内存，所有的内存空间都是可以自由访问的。根据我们前面讲的数组寻址公式，a[3]会被定位到某块不属于数组的内存地址上，而这个地址正好是存储变量i的内存地址，那么a[3]=0就相当于i=0，所以会导致代码无限循环。

（函数体内的局部变量存在栈上，且是连续压栈。在Linux进程的内存布局中，栈区在高地址空间，从高向低增长。变量i和arr在相邻地址，且i比arr的地址大，另外，编译器分配内存和字节对其有关，数组3个元素加上一个变量i，4个正数刚好能满足8字节对齐，所以arr越界正好访问到i，若数组本身有4个元素，这里则不会出现死循环。）

数组越界在C语言中是一种未决行为，并没有规定数组访问越界是编译器应该如何处理。因为，访问数组的本质就是访问一段连续内存，只要数组通过偏移计算得到的内存地址是可用的，那么程序就不会报任何错误。这种情况下，一般会出现莫名其妙的逻辑错误，debug的难度非常大。而且，很多计算机病毒也是利用到了代码中的数组越界可以访问非法地址的漏洞来攻击系统。所以写代码的时候一定要警惕数据越界。

但并非所有语言都像C一样，吧数组越界检查的工作丢给程序员，像JAVA本身就会做越界检查。

int[] a = new int[3];
a[3] = 10;

对以上几行JAVA代码，就会抛出java.lang.ArrayindexOutOfBoundsException.

容器能否完全替代数组？

针对数组类型，很多语言都提供了容器类。在项目开发中，什么时候适合用数组，什么时候胡适合用容器呢？

例如ArrayList与数组相比，到底有哪些优势。 ArrayList最大的优势就是可以将很多数组操作的细节封装起来。比如前面提到的数组插入、删除数据时需要搬移其他数据等。另外，他还有支持动态扩容的优势。数组本身在定义的时候需要预先制定大小。因为需要分配连续的内存空间。如果我们申请了大小为10的数组，当第11个数据需要存储到数组中时，我们需要重新分配一块更大的空间，将原来的数据复制过去，然后将新的数据插入。如果使用ArrayList，就不需要关心底层的扩容逻辑，ArrayList已经帮我们实现好了。每次存储空间不够的时候，它都会将空间自动扩容为1.5倍大小。但是需要注意一点，扩容操作设计内存申请和数据搬移，是比较耗时的。所以，如果事先能确定需要存储的数据大小，最好在创建ArrayList的时候事先制定数据大小。

例如我们要从数据库中取出10000条数据放入ArrayList，我们看下面这几行代码就会发现，相比之下，事先制定数据大小可以省掉很多次内存申请和数据搬移操作。

ArrayList<User> users = new ArrayList(10000);
for (int i = 0; i < 10000; ++i)
{
    user.add(xxx);
}

但是有些时候，用数组就会更合适些。

1.Java ArrayList无法存储基本类型，比如int、long，需要封装为Integer、Long类，而Autoboxing、Unboxing则有一定的性能消耗，所以如果特别关注性能，或者希望使用基本类型，就可以选用数组。

2.如果数据大小事先已知，并且对数据的操作非常简单，用不到ArrayList提供的大部分方法，可以直接使用数组。

3.当要表达多维数组时，用数组往往会更加直观。比如Object[][] array；而用容器的话则需要这样定义：ArrayList<ArrayList> array。

总结：对于业务开发，直接使用容器就足够了，省时省力。毕竟损耗一丢丢性能，完全不会影响到系统整体的性能。但如果你是做一些非常底层的开发，比如开发网络框架，性能的优化需要做到机制，这个时候数组就会优于容器，成为首选。

解答开篇

为什么大多数编程语言中，数组要从0开始编号，而不是从1开始呢？

从数组存储的内存模型上来看，“下标”最确切的定义应该是“偏移(offset)”。前面也讲到，如果用a来表示数组的首地址，a[0]就是偏移为0的位置，即首地址，a[k]就表示偏移为k个type_size的位置，所以计算a[k]的内存地址只需要用公式：a[k]_address = base_address + k * t 。但如果数组从1开始计数，计算数组元素a[k]的内存地址就会变为：a[k]_address = base_address + (k-1) * type_size。对比两个公式，我们发现从1开始编号，每次随机访问数组元素都多了一次减法运算。数组作为非常基础的数据结构，通过下标随机访问数组元素时非常基础的编程操作，效率的优化就要尽可能做到机制。所以为了减少一次减法操作，数组选择从0开始编号而不是从1开始。

课后思考

1.前面基于数组的原理引出JVM的标记清楚垃圾回收算法的核心理念。我不知道你是否使用JAVA语言，理解JVM，如果你熟悉，可以回顾你理解的标记清除垃圾回收算法。

2.前面讲到一组数组的内存寻址公式，请你思考一下，类比一下，二维数组的内存寻址公式是怎样的？

二维数组内存寻址：a[i][j]的地址为：address = base_address + ( i * n + j ) * type_size

Maggie_77

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据结构与算法之美 05

数组：为什么很多编程语言中数组都从0开始编号？如何实现随机访问？数组是一种线性表数据结构。它用一组连续的内存空间，来存储一组具有相同类型的数据线性表（linear list）是数据排成像一条线一样的结构。每个线性表上的数据最多只有前和后两个方向。（链表，队列，栈都属于线性表结构）与其对立的概念是非线性表，比如二叉树、堆、图等，在非线性表中，数据之间并不是简单的前后关系。连续的内存空...
复制链接

扫一扫