1.Avro简介
Avro是一种远程过程调用RPC和数据序列化框架,是在Apache的Hadoop项目之内开发的。它使用JSON来定义数据类型和通讯协议,使用压缩二进制格式来序列化数据。它主要用于Hadoop,在Hadoop的其他项目中(Hbase,Hive)的客户端与服务端的数据传输中被大量采用。它可以为持久化数据提供一种序列化格式,并为Hadoop节点间及从客户端程序到Hadoop服务的通讯提供一种数据交换格式。
简单来说,使用Avro可以做两件事情,一是数据的序列化和反序列化,可以将数据以二进制的形式存储到磁盘上,也可以解析磁盘上的Avro序列化文件。二是支持远程过程调用RPC,在RPC中传输数据内容。
Apache Avro类似于Google ProtocolBuffer和Thrift项目。目前,Avro支持C,C++,Python以及Ruby等等编程语言。
学习资料参考于:
https://avro.apache.org/