英文原文:
https://rohiton.wordpress.com/2016/06/28/persistent-data-structures/
函数式编程鼓励不变性,一些非常纯粹的函数式编程语言(如Haskell)甚至根本不支持可变性。持久化数据结构是纯函数编程的关键,它有助于实现不变性,同时保持性能。
大多数第一次使用函数式编程的开发人员认为,如果数据结构是不变的,更新数据结构会造成大量复制,并造成大量GC/内存压力-这是不正确的。所有好的函数式编程语言都支持所谓的开箱即用的持久数据结构。
持久化数据结构-与名称不同,它与数据的持久性/存储无关。持久数据结构总是被实现为树(即使它是列表、集合、哈希表等类型),其中对数据结构的任何更新都不涉及任何复制,相反,更新操作导致新的树根节点,该新的树根节点指向具有或不具有更新节点的旧数据结构。在操作结束时,我们最终指向两个不同的根节点,即一个指向初始版本(在更新操作之前),另一个根节点指向更新后的节点。
我们的想法是在操作之间尽可能地共享树结构(这避免了复制)-换句话说,我们持久化不同版本的数据结构,也就是版本控制。
示例-如果我们使用不可变列表的c#Nuget包并执行下面的命令,我们将创建四个根节点。
var list = ImmutableList<int>.Empty.Add(1).Add(2).Add(3);
在这里,我们对数据结构执行四个操作(一个创建操作和三个“添加”操作),每个操作将生成一个对根节点的新引用,每个根节点将指向更新后的树。因为我们只保留对“列表”根节点的引用,所以GC将收集以前的中间根节点。
请记住-树数据结构始终用作后备数据结构,因此无论您使用哪种不可变的持久数据结构(List、Map、Vector等),更新操作都将始终返回对新树节点的引用。
正是这种数据结构使不变性在函数式语言中发挥作用。Clojure有了进一步的优化,我强烈建议您无论来自哪种语言/平台,都可以观看下面的演示文稿
https://www.infoq.com/presentations/Value-Identity-State-Rich-Hickey