性能优化二十之数据传输效率优化-FlatBuffers

前言

       数据传输效率优化对于很多人来说还是比较陌生的,我最近也正在学习相关的优化技术,在这里集广大网友的智慧来做一个总结。

问题引入:

       为什么要对数据的传输进行优化,相信百分之99的安卓开发工程师都是用的json进行数据的传输,利用Gson或者fastJson作为序列化及反序列化的工具,但是这样对时间和性能上是有些影响的,主要在内存的浪费和CPU计算机时间的占用,为什么会影响呢?下面给张图就明白了:
这里写图片描述
       json在传输的过程中会发生jsonObject对象内存的创建以及回收操作,从而不可避免的可能会发生内存抖动。
       数据的序列化是程序代码里面必不可少的组成部分,当我们讨论到数据序列化的性能的时候,需要了解有哪些候选的方案,他们各自的优缺点是什么。首先什么是序列化?用下面的图来解释一下:
这里写图片描述

       数据序列化的行为可能发生在数据传递过程中的任何阶段,例如网络传输,不同进程间数据传递,不同类之间的参数传递,把数据存储到磁盘上等等。通常情况下,我们会把那些需要序列化的类实现Serializable接口(如下图所示),但是这种传统的做法效率不高,实施的过程会消耗更多的内存。
这里写图片描述

       但是我们如果使用GSON库来处理这个序列化的问题,不仅仅执行速度更快,内存的使用效率也更高。Android的XML布局文件会在编译的阶段被转换成更加复杂的格式,具备更加高效的执行性能与更高的内存使用效率。
这里写图片描述
下面介绍三个数据序列化的候选方案:
• Protocal Buffers:强大,灵活,但是对内存的消耗会比较大,并不是移动终端上的最佳选择。
• Nano-Proto-Buffers:基于Protocal,为移动终端做了特殊的优化,代码执行效率更高,内存使用效率更佳。
• FlatBuffers:这个开源库最开始是由Google研发的,专注于提供更优秀的性能。
上面这些方案在性能方面的数据对比如下图所示:
这里写图片描述
这里写图片描述
       可见,FlatBuffers 几乎从空间和时间复杂度上完胜其他技术。
FlatBuffers 是一个开源的跨平台数据序列化库,可以应用到几乎任何语言(C++, C#, Go, Java, JavaScript, PHP, Python),最开始是 Google 为游戏或者其他对性能要求很高的应用开发的。项目地址在 GitHub 上。官方的文档在这里

FlatBuffer 的优点

       FlatBuffer 相对于其他序列化技术,例如 XML,JSON,Protocol Buffers 等,有哪些优势呢?官方文档的说法如下:
       1. 直接读取序列化数据,而不需要解析(Parsing)或者解包(Unpacking):FlatBuffer 把数据层级结构保存在一个扁平化的二进制缓存(一维数组)中,同时能够保持直接获取里面的结构化数据,而不需要解析,并且还能保证数据结构变化的前后向兼容。
       2. 高效的内存使用和速度:FlatBuffer 使用过程中,不需要额外的内存,几乎接近原始数据在内存中的大小。
       3. 灵活:数据能够前后向兼容,并且能够灵活控制你的数据结构。
       4. 很少的代码侵入性:使用少量的自动生成的代码即可实现。
       5. 强数据类性,易于使用,跨平台,几乎语言无关。
官方提供了一个性能对比表如下:
这里写图片描述
       在做 Android 开发的时候,JSON 是最常用的数据序列化技术。我们知道,JSON 的可读性很强,但是序列化和反序列化性能却是最差的。解析的时候,JSON 解析器首先,需要在内存中初始化一个对应的数据结构,这个事件经常会消耗 100ms ~ 200ms2;解析过程中,要产生大量的临时变量,造成 Java 虚拟机的 GC 和内存抖动,解析 20KB 的数据,大概会消耗 100KB 的临时内存2。FlatBuffers 就解决了这些问题。

使用方法

       简单来说,FlatBuffers 的使用方法是,首先按照使用特定的 IDL 定义数据结构 schema,然后使用编译工具 flatc 编译 schema 生成对应的代码,把生成的代码应用到工程中即可。下面详细介绍每一步:
首先,我们需要得到 flatc,这个需要从源码编辑得到。从 GitHub 上 Clone 代码:

$ git clone https://github.com/google/flatbuffers

首先要使用 FlatBuffers 的 IDL 定义好数据结构 Schema,编写 Schema 的详细文档在这里。其语法和 C 语言类似,比较容易上手。我们这里引用一个简单的例子2,假设数据结构如下:

class Person {  
    String name;
    int friendshipStatus;
    Person spouse;
    List<Person>friends;
}

编写成 Schema 如下,文件名为 Person.fbs:

// Person schema

namespace com.race604.fbs;

enum FriendshipStatus: int {Friend = 1, NotFriend}

table Person {  
  name: string;
  friendshipStatus: FriendshipStatus = Friend;
  spouse: Person;
  friends: [Person];
}

root_type Person;  

然后,使用 flatc 可以把 Schema 编译成多种编程语言,我们仅仅讨论 Android 平台,所以把 Schema 编译成 Java,找到flatc.exe执行命令如下:
$ ./flatc –j -b Person.fbs,在cmd命令下类似。
在当前目录生成如下文件:

.
└── com
    └── race604
        └── fbs
            ├── FriendshipStatus.java
            └── Person.java

Person 类有响应的函数直接获取其内部的属性值,使用非常简单:

Person person = ...;  
// 获取普通成员
String name = person.name();  
int friendshipStatus = person.friendshipStatus();  
// 获取数组
int length = person.friendsLength()  
for (int i = 0; i < length; i++) {  
    Person friends = person.friends(i);
    ...
}

下面我们来构建一个 Person 对象,名字是 “John”,其配偶(spouse)是 “Mary”,还有两个朋友,分别是 “Dave” 和 “Tom”,实现如下:

private ByteBuffer createPerson() {  
    FlatBufferBuilder builder = new FlatBufferBuilder(0);
    int spouseName = builder.createString("Mary");
    int spouse = Person.createPerson(builder, spouseName, FriendshipStatus.Friend, 0, 0);

    int friendDave = Person.createPerson(builder, builder.createString("Dave"),
            FriendshipStatus.Friend, 0, 0);
    int friendTom = Person.createPerson(builder, builder.createString("Tom"),
            FriendshipStatus.Friend, 0, 0);

    int name = builder.createString("John");
    int[] friendsArr = new int[]{ friendDave, friendTom };
    int friends = Person.createFriendsVector(builder, friendsArr);

    Person.startPerson(builder);
    Person.addName(builder, name);
    Person.addSpouse(builder, spouse);
    Person.addFriends(builder, friends);
    Person.addFriendshipStatus(builder, FriendshipStatus.NotFriend);

    int john = Person.endPerson(builder);
    builder.finish(john);

    return builder.dataBuffer();
}

基本方法就是通过 FlatBufferBuilder 工具,往里面填写数据,详细的写法可以参考官方文档3。可见,其实写法略显繁琐,不太直观。

基本原理:

       如官方文档的介绍,FlatBuffers 就像它的名字所表示的一样,就是把结构化的对象,用一个扁平化(Flat)的缓冲区保存,简单的来说就是把内存对象数据,保存在一个一维的数组中。借用 Facebook 文章2的一张图如下:
第七张图
       可见,FlatBuffers 保存在一个 byte 数组中,有一个“支点”指针(pivot point)以此为界,存储的内容分为两个部分:元数据和数据内容。其中元数据部分就是数据在前面,其长度等于对象中的字段数量,每个 byte 保存对应字段内容在数组中的索引(从支点位置开始计算)。
如图,上面的 Person 对象第一个字段是 name,其值的索引位置是 1,所以从索引位置 1 开始的字符串,就是 name 字段的值 “John”。第二个字段是 friendshipStatus,其索引值是 6,找到值为 2, 表示 NotFriend。第三个字段是 spouse,也一个 Person 对象,索引值是 12,指向的是此对象的支点位置。第四个字段是一个数组,图中表示的数组为空,所以索引值是 0。
通过上面的解析,可以看出,FlatBuffers 通过自己分配和管理对象的存储,使对象在内存中就是线性结构化的,直接可以把内存内容保存或者发送出去,加载“解析”数据只需要把 byte 数组加载到内存中即可,不需要任何解析,也不产生任何中间变量。
它与具体的机器或者运行环境无关,例如在 Java 中,对象内的内存不依赖 Java 虚拟机的堆内存分配策略实现,所以也是跨平台的。

使用建议

       通过前面的体验,FlatBuffers 几乎秒杀了 JSON
       下面说说 FlatBuffers 的几点缺点:
       1. FlatBuffers 需要生成代码,对代码有侵入性;
       2. 数据序列化没有可读性,不方便 Debug;
       3. 构建 FlatBuffers 对象比较麻烦,不直观,特别是如果对象比较复杂情况下需要写大段的代码;
       4. 数据的所有内容需要使用 Schema 严格定义,灵活性不如 JSON。
       所以,在什么情况下选择使用 FlatBuffers 呢?个人感觉需要满足以下几点:
       1. 项目中有大量数据传输和解析,使用 JSON 成为了性能瓶颈;
       2. 稳定的数据结构定义。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值