- 头
PGCOPY\n\377\r\n\0\0\0\0\0\0\0\0\0
, 后面一般是0,不是一定为0,参见postgresql文档。 - 尾 0xffff 两字节,16位。
- 中间, 两字节 列数n + n个field, 每个field为 4字节后面value的大小 + value。有多少条数据,中间重复多少次。
- 每个field对于数据库中的对应列的元素,都有哪些列是发起copy的时候指定的,参见文档,比如libpq部分,如果这个列对应的元素为空,那么field中的大小为 0xffffffff, 及4字节32位全1,然后后面不用加value了。
- 数组的表示方法,如果对应列为数组,比如
smallint[]
,文档中要求看postgresql源码,可以看array_send
的代码,整个field的 格式为 32位整个value部分的大小(和其他的field相同) + 32位数组维数(一维数组为1) + 32位的是否有null(没有为0否则1),+ 32位的元素类型 参考pg_type_d.h
+ 对于每个维度{ 32位维度的大小(5个元素一维数组为5) + 32位低边界(如果没有特殊处理,就是1)} + 对于每个元素{ 32位value大小+value,同样支持32位-1,即0xffffffff代表空} - 自定义类型表示方法,和数组类似,要看代码,看
record_send
,整个field的 格式为 32位整个value部分的大小(和其他的field相同) + 32位成员数n + 对于每个成员{32位元素类型,参考pg_type_d.h
+ 32位value大小 + value,同样支持 32位 0xffffffff代表空} - 注意事项,所有的地方都是bigendian 字节序。
pg_type_d.h
中可以找到的常见类型对应的数字代号:
smallint 21, integer 23, bigint 20, real 700, double precision 701, timestamp§ without time zone 1114, text 25, boolean 16
对于数组和自定义类型,二进制的方式也不快,这和二进制格式的负责性是相关的。包含了太多的校验信息。