Avro 入门

最新推荐文章于 2022-04-26 05:03:56 发布

要有价值

最新推荐文章于 2022-04-26 05:03:56 发布

阅读量399

点赞数

分类专栏：数据结构与算法文章标签： big data 人工智能

本文链接：https://blog.csdn.net/qq_44918331/article/details/120508143

版权

2 篇文章 0 订阅

订阅专栏

Avro

Apache Avro是一个数据序列化方法。

Avro提供：

schema是一种metadata（元数据，是用于描述数据的数据），用于描述avro数据；

schema通过JSON定义，下面是一个record类型的schema：

{
    "type": "record",
    "name": "test",
    "fields" : [
        {"name": "a", "type": "long"},
        {"name": "b", "type": "string"}
    ]
}

解析avro数据（来自对象容器文件或序列化数据）时，必须根据数据的schema进行分析；

通常，schema和其描述的数据一起存放，例如：在avro支持的对象容器文件(Object Container File)中就在头部包含了文件中存储的数据的schema；在RPC应用中，通信双方也必须确保拥有对方所发送数据的schema。

Avro依赖于schema。当读取Avro数据时，总是能够获取到写入该数据时用到的schema。这样一来，每次写入数据都无需多余的开销，进而加快序列化速度、减小序列的大小。在动态的、脚本式语言中使用Avro也会变得更加容易，因为数据配合它的schema可以进行完整的自我描述。

当把Avro用于RPC时，客户端和服务器在连接握手时互换schema。（这一点还可以优化，对于大部分调用而言，实际上不会传输schema）。客户端和服务器都拥有对方的全部的schema，因此，在通信中的命名域、缺失域、附加域等都可以很容易被处理。

Avro指定两种序列化方法：

序列化原则：深度优先、从左到右。

序列化之后的数据，可以通过反序列化而得到原数据(首先获取schema是必须的)。

Thrift、Protocol Buffers等也提供了和Avro类似的功能。Avro区别于它们的主要方面如下：

关注

专栏目录