StringBuilder内存碎片对性能的影响

TL;DR:

StringBuilder内部是由多段 char[]组成的半自动链表,因此频繁从中间修改 StringBuilder,会将原本连续的内存分隔为多段,从而影响读取/遍历性能。

连续内存与不连续内存的性能差,可能高达 1600倍。

背景

用 StringBuilder的用户可能大都想用 StringBuilder拼接 html/json模板、组装动态 SQL等正常操作。但在一些特殊场景中——如为某种编程语言写语言服务,或者写一个富文本编辑器时, StringBuilder依然也有用武之地,通过里面的 InsertRemove两个方法来修改。

测试方法

Talk is cheap, show me the code:

int docLength = 10000;
void Main()
{
    (from power in Enumerable.Range (1, 16)
    let mutations = (int) Math.Pow (2, power)
    select new
    {
        mutations,
        PerformanceRatio = Math.Round (GetPerformanceRatio (docLength, mutations), 1)
    }).Dump();
}
float GetPerformanceRatio (int docLength, int mutations)
{
    var sb = new StringBuilder ("".PadRight (docLength));
    var before = GetPerformance (sb);
    FragmentStringBuilder (sb, mutations);
    var after = GetPerformance (sb);
    return (float) after.Ticks / before.Ticks;
}
void FragmentStringBuilder (StringBuilder sb, int mutations)
{
    var r = new Random(42);
    for (int i = 0; i < mutations; i++)
    {
        sb.Insert (r.Next (sb.Length), 'x');
        sb.Remove (r.Next (sb.Length), 1);
    }
}
TimeSpan GetPerformance (StringBuilder sb)
{
    var sw = Stopwatch.StartNew();
    long tot = 0;
    for (int i = 0; i < sb.Length; i++)
    {
        char c = sb[i];
        tot += (int) c;
    }
    sw.Stop();
    return sw.Elapsed;
}

关于这段代码,请注意以下几点:

  1. 通过 .PadRight(n)来直接创建长度为 n的空白字符串,可以用 newstring(' ',n)来代替;

  2. newRandom(42)处,我指定了一个随机因子42,确保每次分隔后分隔的位置完全相同,有利于做对照组;

  3. 我分别对字符串进行了 2^1~2^16次修改,分别比较经过这么多次修改之后的性能差异;

  4. 我使用 sb[i]来逐一访问 StringBuilder中的位置,使内存不连续性更加突显。

运行结果

mutationsPerformanceRatio
21
41
81
161
321
641.1
1281.2
2561.8
5125.2
102419.9
204881.3
4096274.5
8192745.8
163841578.8
327681630.4
65536930.8

可见如果在 StringBuilder中间进行大量修改,其性能会急剧下降,注意看 32768次修改的情况下,遍历时会产生高达 1630.4倍的性能差!

解决方式

如果一定要用 StringBuilder,可以考虑在修改一定次数后,重新创建一个新的 StringBuilder,以使得访问时获得最佳的内存连续性,即可解决此问题:

void FragmentStringBuilder (StringBuilder sb, int mutations)
{
    var r = new Random(42);
    for (int i = 0; i < mutations; i++)
    {
        sb.Insert (r.Next (sb.Length), 'x');
        sb.Remove (r.Next (sb.Length), 1);
        // 重点
        const int defragmentCount = 250;
        if (i % defragmentCount == defragmentCount - 1)
        {
            string buf = sb.ToString();
            sb.Clear();
            sb.Append(buf);
        }
    }
}

如上,经过 250次修改,即将原 StringBuilder删除,然后重新创建一个新的 StringBuilder,此时运行效果如下:

mutationsPerformanceRatio
21.2
40.7
81
161
321
641.1
1281.2
2561
5121
10241
20481
40961.1
81921.5
163841.3
327681
655361

可见,在几乎所有情况下,受内存不连续造成的访问性能问题,解决——同时 250可能是一个相对比较合理的数字,在插入性能与查询/遍历性能中,获得平衡。

反思与总结

众所周知,由于 string的不可变性,拼接大量字符串时,会浪费大量内存。但使用 StringBuilder也需要了解它的结构。

StringBuilder这样做成链式的结构并非没有原因,如果考虑插入性能,做成链式接口是优秀的。但如果考虑查询性能,链式结构就非常不利了,如果设计为非链式结构,从中间插入时, StringBuilder的内存空间可能不够,因此需要重新分配内存,这样相当于将 StringBuilder降格为 string,因此完全丧失了 StringBuilder适合做“频繁插入”的优势。

本文说的其实是一个非常特殊的例子,现实中除了语言服务、编辑器外,很少会需要这种即要频繁插入,也要频繁修改的场景。如果想简单点搞,用 StringBuilder会是一个有条件合适的解决方案。更适合的解决方案当然是专门的数据结构—— PieceTable,微软在 VSCode编辑器中,为了确保大文件编辑性能,使用了该数据结构,取得了非常不错的成果,参考链接:Text Buffer Reimplementation - https://code.visualstudio.com/blogs/2018/03/23/text-buffer-reimplementation。

喜欢的朋友请关注我的微信公众号:【DotNet骚操作】

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值