Apache Avro 1.8.1 入门指南（Java）

最新推荐文章于 2024-08-07 09:24:28 发布

strongyoung88

最新推荐文章于 2024-08-07 09:24:28 发布

阅读量8.4k

点赞数 4

分类专栏： avro 文章标签： avro rpc 序列化 serialize 二进制

本文链接：https://blog.csdn.net/strongyoung88/article/details/53838879

版权

Apache Avro是一个数据序列化系统，用于高效传输数据。本文档介绍了Avro的下载、如何定义schema、使用代码生成进行序列化和反序列化的步骤，包括如何编译schema，创建用户对象，以及序列化和反序列化的具体实现。通过Avro，可以创建紧凑的二进制数据格式，减少存储和传输成本。

摘要由CSDN通过智能技术生成

在快速入门之前，我们先来了解一下Apache Avro到底是什么东东？能够用来做什么？

Apache Avro是一个数据序列化系统。序列化就是将对象转换成二进制流，相应的反序列化就是将二进制流再转换成对应的对象。因此，Avro就是用来在传输数据之前，将对象转换成二进制流，然后此二进制流达到目标地址后，Avro再将二进制流转换成对象。

接下来，我们看看官方网站上是怎么说的。

Apache Avro是一个数据序列化系统。

Avro提供：

丰富的数据结构
一个紧凑的，快速的，二进制的数据格式
一个容器文件，来存储持久化数据
远程过程调用（RPC）
简单的动态语言集成。
代码生成不需要读写数据文件，也不要使用或实现RPC协议。代码生成是作为一个可选的优化，只对静态类型的语言值得实现。

大家知道，JSON是一种轻量级的数据传输格式，对于大数据集，JSON数据会显示力不从心，因为JSON的格式是key：value型，每条记录都要附上key的名字，有的时候，光key消耗的空间甚至会超过value所占空间，这对空间的浪费十分严重，尤其是对大型数据集来说，因为它不仅不够紧凑，还要重复地加上key信息，不仅会造成存储空间上的浪费，更会增加了数据传输的压力，从而给集群增加负担，进而影响整个集群的吞吐量。而采用Avro数据序列化系统可以比较好的解决此问题，因为用Avro序列化后的文件由schema和真实内容组成，schema只是数据的元数据，相当于JSON数据的key信息，schema单独存放在一个JSON文件中，这样一来，数据的元数据只存了一次，相比JSON数据格式的文件，大大缩小了存储容量。从而使得Avro文件可以更加紧凑地组织数据。

接下来，我们开始使用Avro。

下载

以Maven为例，增加Avro的依赖，及插件，插件的好处在于，可以直接自动地为avsc文件生成类。

<dependencies>
        <dependency>
            <groupId>org.apache.avro</groupId>
            <artifactId>avro</artifactId>
            <version>1.8.1</version>
        </dependency>
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.12</version>
        </dependency>
</dependencies>

    <build>
        <plugins>
            <plugin>
                <groupId>org.apache.avro</groupId>
                <artifactId>avro-maven-plugin</artifactId>
                <version>1.8.1</version>
                <executions>
                    <execution>
                        <phase>generate-sources</phase>
                        <g