本文所用源码为 PHP 7.4.4 的版本。
PHP 7 数组概述
PHP 中的数组实际上是一个有序映射。映射是一种把 values 关联到 keys 的类型。此类型在很多方面做了优化,因此可以把它当成真正的数组,或列表(向量),散列表(是映射的一种实现),字典,集合,栈,队列以及更多可能性。由于数组元素的值也可以是另一个数组,树形结构和多维数组也是允许的。 —— PHP 官方文档中文版
这里主要关注两个点:
key 可以是整数,也可以是字符串。Float、Bool、Null 类型的 key 会被转换为整数或者字符串存储,其他类型的会报错。
value 可以是任意类型。
遍历数组时,数组元素按照其 key 添加的顺序依次取出。
PHP 7 的数组分为 packed array 和 hash array 两种类型,在满足一定条件时可以互转。
hash array 的 key 可以是整数也可以是字符串,在 hash 冲突时使用链表(冲突链)来解决冲突问题。
packed array 的所有 key 是自然数,且依次添加的元素的 key 逐渐增大(不要求连续)。它的耗时和内存占用都比 hash 数组低。
以下仅介绍 hash array 相关的内容。
主要数据类型
下图是数组主要的数据类型:
Hash 区 arData Data 区
+
| 指 针 指 向 Data 区 的 开 始
v
+----------+----------+----------+----------+----------+----------+----------+----------+
| | | | | | | | |
|nTableMask|nTableMask| ...... | -1 | 0 | 1 | ...... |nTableSize|
| | +1 | | | | | | +1 |
+---------------------------------------------------------------------------------------+
| | | | | | | | |
| uint32_t | uint32_t | ...... | uint32_t | Bucket | Bucket | ...... | Bucket |
| | | | | | | | |
+----------+----------+----------+----------+----------+----------+----------+----------+
从整体看,这是一个数组。但入口是 arData 而不是处于最左侧的一个元素。arData 把数组分为两部分:
左边是 Hash 区,其值为 uint32_t 类型,是冲突链的第一个元素在 Data 区的下标;
右边是 Data 区,其值为 Bucket 类型,用于存储数据及其相关信息。
由于 arData 主要指向 Data 区,因此其默认类型被配置为 Bucket 指针。
在申请内存时,会把 Hash 区所需的内存大小加上 Data 区所需的内存大小,然后一起申请。
Bucket 长什么样?
zend_types.h:
/* 数组的基本元素 */
typedef struct _Bucket {
zval val; /* 值 */
zend_ulong h; /* hash 值(或者整数索引) */
zend_string *key; /* 字符串 key(如果存储时用整数索引,则该值为 NULL) */
} Bucket;
Bucket 把 key 和 value 放在一起了。
在冲突链中,Bucket 是一个节点。那么此时心里会有一个疑问:怎么获取冲突链的下一个节点?
冲突链
说到链表,会很自然地想到链表元素的结构体里包含着指向下一个元素的指针 next 。例如单向链表:
typedef struct listNode {
struct listNode *next;
void *value;
} listNode;
但 Bucket 却不包含这个指针。
会不会在 Bucket 上一层,也就是数组的结构体定义中有一个专门存放冲突链的地方?
zend_types.h:
typedef struct _zend_array HashTable;
struct _zend_array {
zend_refcounted_h gc;
union {
struct {
ZEND_ENDIAN_LOHI_4(
zend_uchar flags,
zend_uchar _unused,
zend_uchar nIteratorsCount,
zend_uchar _unused2)
} v;
uint32_t flags;
} u;
uint32_t nTableMask; // 用于把 hash 值转化为 [nTableMask, -1] 区间内的负数。根据 nTableSize 生成。
Bucket *arData; // 指向 Data 区的指针。
uint32_t nNumUsed; // Data 区最后一个有效 Bucket 的下标 + 1。
uint32_t nNumOfElements; // 存在多少个有效 Bucket。删除数组元素时,会使其减一。
uint32_t nTableSize; // 总共有多少空间。
uint32_t nInternalPointer;
zend_long nNextFreeElement;
dtor_func_t pDestructor;
};
想错了,换个角度想想.jpg
那往 Bucket 下一层看看:
zend_types.h:
typedef struct _zval_struct zval;
struct _zval_struct {
zend_value value; // 通用值结构。存储基础类型(double)或指针(数组、对象等等)
union {
struct {
// 省略其他定义
} v;
uint32_t type_info; // 值的类型,例如 IS_ARRAY 、IS_UNDEF
} u1;
union {
uint32_t next; // 指向 hash 冲突链的下一个元素 <--- 就是这里
// 省略其他定义
} u2; // u2 表示第二个 union
};
惊!链表元素的 next 居然藏在 PHP 的通用数据类型 zval 里面。
想不到吧?.jpg
补充一点:
PHP HashMap 的冲突链始终是一个链表,不会像 JAVA 的 HashMap 那样在达成一定条件时转成红黑树。这会带来一定的问题。后面再详细说明。
怎么看 HashTable ?
再看一遍结构体。
zend_types.h:
typedef struct _zend_array HashTable;
struct _zend_array {
zend_refcounted_h gc;
union {
struct {
ZEND_ENDIAN_LOHI_4(
zend_uchar flags,
zend_uchar _unused,
zend_uchar nIteratorsCount,
z