什么是序列化?
内存中的数据对象只有转换为二进制流才可以进行数据持久化和网络传输。将数据对象转换为二进制流的过程称为对象的序列化(Serialization)。反之,将二进制流恢复为数据对象的过程称为反序列化(Deserialization)。序列化需要保留充分的信息以恢复数据对象,但是为了节约存储空间和网络带宽,序列化后的二进制流又要尽可能小。序列化常见的使用场景是RPC框架的数据传输。常见的序列化方式有三种:二进制、xml、Json,当然还有新起之秀Protocol Buffers、Avro、Spearal等,
二进制序列化特点
说起二进制序列化,大家可能是既爱又恨,爱是其保真度是其他序列化都无法比拟的,恨却是其性能和[Serializable]
标签,实际上二进制序列化也可以想Json一样,只传递数据,不显示其属性,可那样的话,为什么不直接用Json呢,所以本猿还是喜欢在现有的二进制中摸爬滚打,至于标签,本猿也觉得挺重要的,因为这就在提醒开发人员,该数据对象可能会被反序列化,得小心,具体危险程度有多少,可以看看微软介绍,这里就不累述了。接下来,就让我们开始捣鼓BinaryFormatter
吧。
常规序列化及反序列化
序列化
private static byte[] Serialize(object obj)
{
using (MemoryStream stream = new MemoryStream())
{
BinaryFormatter binaryFormatter = new BinaryFormatter();
binaryFormatter.Serialize(stream, obj);
return stream.ToArray();
}
}
反序列化
private static T Deserialize<T>(byte[] buffer)
{
using (MemoryStream stream = new MemoryStream())
{
stream.Write(buffer,0,buffer.Length);
stream.Position = 0;
BinaryFormatter binaryFormatter = new BinaryFormatter();
return (T)binaryFormatter.Deserialize(stream);
}
}
或者
private static T Deserialize<T>(byte[] buffer)
{
using (MemoryStream stream = new MemoryStream(buffer))
{
BinaryFormatter binaryFormatter = new BinaryFormatter();
return (T)binaryFormatter.Deserialize(stream);
}
}
序列化测试
看代码没什么问题,我们来测试一下
以下测试环境
测试硬件:戴尔笔记本,i5-8250u,8G RAM+256G固态+1T机械。
测试系统:Window10 家庭版,x64位。
首先,声明一个Student类
[Serializable]
public class Student
{
public string Name { get; set; }
public int Age { get; set; }
public string Address { get; set; }
public byte[] Data { get; set; }
}
然后赋值,并且序列化(TimeMeasurer是RRQMCore中的一个测时器,代码原理和StopWatch用法一致)
static void Main(string[] args)
{
Console.ReadKey();
Student student = new Student();
student.Name = "张三";
student.Age = 20;
student.Address = "中国";
student.Data = new byte[1024];
TimeSpan timeSpan = RRQMCore.Diagnostics.TimeMeasurer.Run(() =>
{
for (int i = 0; i < 1000000; i++)
{
byte[] datas = Serialize(student);
if (i % 10000 == 0)
{
Console.WriteLine(i);
}
}
});
Console.WriteLine(timeSpan);
Console.ReadKey();
}
测试结果
耗时4.74秒
内存基本上没有GC
咦,100万次序列化性能很好嘛,那还有什么问题呢??
加大药量,把Data的长度修改为100K,让问题怪怪滴浮出水面
问题出现了,耗时39.29秒才序列化完成,而且GC释放及其频繁。
事情发展到这里,相信各位已经发现了问题所在,那就让我们一起来看看。
首先看看代码,我们序列化Student对象时,不清楚其实际大小,但可以简单估计一下。
“张三”=4Byte
20=4Byte
“中国”=4Byte
外加程序集名,Token值,类名等,粗略算50Byte
合计一下就是:4+4+4+102400+50=102462
也就是说在序列化时,MemoryStream首先需要将102462Byte的数据写入流中,然后再通过ToArray方法再复制一份,然后返回字节数组。简而言之,序列化102462的数据需要两倍的内存,而且在不定时中被GC回收。再简单计算一下,102462×2×100万=190.85Gb,也就是说,内存在39秒的序列化中一共申请释放了190.85G的容量,这得多少部回家的诱惑.mp4
简单优化
很明显了吧,二进制序列化的诟病也基本上清晰了,那有没有解决方法呢,答案肯定是有的,我们先来做简单的优化。
可以考虑将MemoryStream 声明在类中,然后每次序列化完不要释放,在下次序列化时只需要将流位置重置就可以。
static MemoryStream stream = new MemoryStream();
private static byte[] Serialize(object obj)
{
stream.Position = 0;
BinaryFormatter binaryFormatter = new BinaryFormatter();
binaryFormatter.Serialize(stream, obj);
return stream.ToArray();
}
优化后结果
从结果可以看出,用时比之前节约了两倍有余,这证明了我们的优化是立竿见影的,但是同时也看到GC释放依然密集,这也反映出优化不完全,还有改进的余地的。这就不得不引出内存池,但是因为篇幅有限(zai shui yi pian),我们下节再讲。
当然如果还有什么不明白的,可以私信本猿哦,QQ:505554090,QQ群:234762506