arraylist下标从几开始_漫画:为什么计算机从 0 开始计数,而不是从 1 开始?

ed5f63af5990ca312a222978609b301e.png

作者 | 漫话编程

来源 | 漫话编程

da5220334ad91a1db68464c29155d946.png b4a1b73d0293181e734ac4b2de287c6c.png 9153bdfc3d0604be2323ac29b9b741de.png 1807537534d1ba25cf29585535665c7b.png e30637574f4ee804e5a5f15e29dd17ff.png

当我们想要写一个循环体,期望执行10次的时候,我们会使用以下方式:

for (int i=0; i<10; i++){

}

可以看到,为了保证循环10次,我们定义了一个整数变量从0开始。

还有,当我们定义数组的时候,在常见的C语言、Java、Python等语言中,都是使用下标0来表示第一个元素的。

05390121837744e3fd0f5a3c97d93a42.png 373c25ccbfc47ce86dc4e8acab921477.png 41d7f78168270c43012e41a1a1371a01.png afa635e95fa050853ef8e7136a0cfc52.png bcefa7f0f2ec42e93e8911d30021f003.png

从0开始更优雅

在《为什么程序员喜欢使用0 ≤ i < 10这种左闭右开的形式写for循环?》一文中我们分析过,Dijkstra通过分析,得出在进行范围表达的时候,使用左闭右开的方式更加合理。

但是,Dijkstra在分析出2 ≤ i < 13这种形式更加合理之后,他有陷入了另外一个思考,那就是:

当处理长度为 N 的序列时,到底第一个元素的下标使用0还是1更加合适?

关于这个分析,他的出发点很简单,那就是哪种方式更加漂亮,更加优雅。

他认为,使用左闭右开的表达方式,当下标从 1 开始时,下标范围为 1 <= i < N+1;当下标从 0 开始时则是 0 <= i < N;

而显然后面这种表达式更加漂亮、优雅一些。所以,他建议我们使用0作为第一个下标。

3112149eb4afd8e56717216f4d4ae70e.png e592804b421e2655132b78c435cec1f4.png 5f40d658614a2cd0aca4d3deeddc401b.png 3cfbea68e2805c7d6df3ada4f4ab123c.png 16628fbba27fa6b11f5b1c201479bd7b.png

计数表示偏移量

很多人学习编程都是从C语言开始的,那么,C语言就是一个典型的0-base语言(以0作为计数的开始),其实,这一约定早在BCPL时代就是这样的了。

在C语言还不叫C语言,还叫BCPL的时候,他的作者马丁·理察德就设计了数组从0开始的索引方式。

当我们在BCPL(C语言)中定义数组int arr[8]的时候,编辑器会在内存中开辟一块空间(这个空间中可能包含多个内存单元)供该数组使用。

为了能让数组找到编译器为自己开辟的空间,会把这块内存空间中第一个内存单元的地址(0X0000001)赋值给这个数组,当我们使用&arr的时候,就可以拿到这块地址。

0ad7db99d51214d81c97dc332322410b.png

BCPL最初是用IBM 7094机器编译的;它在编译时会优化这些数组索引提供的指针反参考运算(indirection),即可以通过指针取出地址中存储的值,这个特性也一直延续到今天。

有了指针之后,我们可以使用int *pr = arr的方式初始化一个指针,那么,这时候,指针pr也会指向数组的内存空间的第一个内存单元的地址。

39f56d20c707bc5a42398e48a038f153.png

那有了数组和指针,想要使用这块内存第一个内存单元存储一个变量的时候,就需要想办法表示这第一个空间。

那么,BCPL的作者采用了0作为数组第一个元素的下标,因为他认为,数组的下标应该和指针的偏移量是相对应的。这样在使用第一个内存单元的时候,直接使用arr[0]或者*(p+0)就可以了。

5c971dd3c30fdc7adb68033cbddab1f1.png 54c1432e8a753e75ffe67616028f436f.png b8c250a5129cce596d1e8cdf35ec4df3.png

因为指针 *(p+0) 这种表达形式中的0表示的是偏移量,所以,无论数组的下标从几开始, *(p+0) 都是用于存取内存中的 p+0位址的值,也就是0X0000001这块内存单元的值。

试想一下,如果使用1作为数组的起始下标,那么arr1就应该指向0X0000001这块内存,但是 *(p+1) 按照偏移量的计算方式,需要指向0X0000005这块内存。这种情况下,如果想要让 *(p+1)和arr[1] 指向同一块内存,就需要额外做一次减法指令。

因为几乎所有计算机结构,都借由位址和偏移量来表示直接引用内存,所以,像C语言这种使用0做为数组的第一个下标使得语言的实现上更加容易。

但是值得一提的是,在C语言流行起来之前,还是有很多1-base的编程语言的,如FORTRAN、BASIC等编程语言的数组下标都是从1开始的。

随着C语言的发扬光大,很多语言都参考了C语言的做法。

7d201215e77bd305a54fc032a71d6687.png 8a083474d4c741be4dce768239555183.png dcd5d7cba1f1c0142b871f3d93325fc0.png ac9d692a203f93d2b32c41805f52484f.png

Python作者的解释

关于这个问题,之前也有网友在Twitter上询问过Python之父——Guido van Rossum,他给出过正面回答,我把回答内容的翻译版贴在下面:

我记得自己就这个问题思考过很久;Python的祖先之一ABC语言,使用的索引是从1开始的(1-based indexing),而对Python语言有巨大影响的另一门语言,C语言的索引则是从0开始的。

我最早学习的几种编程语言(Algol, Fortran, Pascal)中的索引方式,有的是1-based的,有的是从定义的某个变量开始(variable-based indexing)。而我决定在Python中使用0-based索引方式的一个原因,就是切片语法(slice notation)。

让我们来先看看切片的用法。可能最常见的用法,就是“取前n位元素”或“从第i位索引起,取后n位元素”(前一种用法,实际上是i==起始位的特殊用法)。如果这两种用法实现时可以不在表达式中出现难看的+1或-1,那将会非常的优雅。

使用0-based的索引方式、半开区间切片和缺省匹配区间的话(Python最终采用这样的方式),上面两种情形的切片语法就变得非常漂亮:a[:n]和a[i:i+n],前者是a[0:n]的缩略写法。

如果使用1-based的索引方式,那么,想让a[:n]表达“取前n个元素”的意思,你要么使用闭合区间切片语法,要么在切片语法中使用切片起始位和切片长度作为切片参数。

半开区间切片语法如果和1-based的索引方式结合起来,则会变得不优雅。

而使用闭合区间切片语法的话,为了从第i位索引开始取后n个元素,你就得把表达式写成a[i:i+n-1]。

这样看来,1-based的索引方式,与切片起始位+长度的语法形式配合使用会不会更合适?这样你可以写成a[i:n]。事实上,ABC语言就是这样做的——它发明了一个独特的语法,你可以把表达式写成a@i|n。

但是,index:length这种方式在其它情况下适用吗?说实话,这点我有些记不清了,但我想我是被半开区间语法的优雅迷住了。

特别是当两个切片操作位置邻接时,第一个切片操作的终点索引值是第二个切片的起点索引值时,太漂亮了,无法舍弃。

例如,你想将一个字符串以i,j两个位置切成三部分,这三部分的表达式将会是a[:i],a[i:j]和a[j:]。

66bfab5b3b1aa8e75c2bba47ba6bb5ee.png d7002528f63427a27f7471a580227348.png 5a15aadc07fb2eb4d9a836cd84ff8503.png 40614ee36f32fc0277f1c0bc4ab2d0b7.png 9c41997d7cf5aaff308093aef8e7300e.png da3d656a412b7c1de172311ff5eab0f2.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值