优点 采用连续的内存布局,在单机计算的时候,对操作系统友好,增加了缓存命中率以及读取数据的效率采用列式存储,在单机计算的时候,可以利用SMID向量化处理,并且增加了查询效率(一般查询的时候只是查询几列)采用列式存储,IPC进程间通信传输的时候,提高了压缩率采用零拷贝,IPC进程间通信传输的时候,减少了数据传输的开销跨语言的标准化规范,消除了各个格式之间转换所需要的序列化和反序列化的时间 以上优点实现了高速的数据传输和处理能力,使得它在大数据场景下有很好的优化价值 参考 Apache Arrow: 数据工程的未来Arrow协议及简介