《高阶Perl》——3.10　可供选择的记忆术-CSDN博客

3.10　可供选择的记忆术

大多数纯函数提供一个缓存的机会。尽管乍一看纯函数很少，它们只以一定频率出现。纯函数特别普遍的地方是在排序中用做比较器函数。

Perl内置的sort操作符是通用的，它可以把一列任何种类的数据以程序要求的任何次序排序。默认状态下，它把一列字符串以字母表次序排序，但是程序员可以任意提供一个比较器函数（comparator function），告诉Perl怎样重排sort的参数列表。比较器函数被反复调用，每次带有待排序列表中的两个不同元素，如果两个元素次序正确，就必须返回一个负值；如果两个元素次序不正确，就返回一个正值，如果无所谓，就返回零。通常，一个比较器函数的返回值只依赖它的参数的值，待比较的两个列表条目，所以它是一个纯函数。

最简单的比较器函数的例子也许是按大小比较数字的比较器了：

@sorted_numbers = sort { $a <=> $b } @numbers;

这里{ $a <=> $b } 就是比较器函数。sort操作符检查列表@numbers，把$a和$b设置成将要比较的数字，然后调用比较器函数。<=>是一个特殊的Perl操作符，如果$a小于$b，就返回一个负值；如果$a大于$b，就返回一个正值；如果$a与$b相等，就返回零。cmp是一个针对字符串的类似的操作符，如果不提供一个明确的比较器，Perl就默认使用它。

一个可选的语法是使用一个具名函数而不是一个裸露的块：

@sorted_numbers = sort numerically @numbers;

sub numerically { $a <=> $b }

这等价于裸露块版本。

一个更有趣的例子是把一列形如"Apr 16, 1945"的日期字符串按时间次序排序：

### Code Library: chrono-1
@sorted_dates = sort chronologically @dates;

%m2n =
   ( jan =>      1, feb =>      2, mar =>      3,
     apr =>      4, may =>      5, jun =>      6,
     jul =>      7, aug =>      8, sep =>      9,
     oct =>     10, nov =>     11, dec =>     12, );
sub chronologically {
  my ($am, $ad, $ay) =
    ($a =~ /(\w{3}) (\d+), (\d+)/);
  my ($bm, $bd, $by) =
    ($b =~ /(\w{3}) (\d+), (\d+)/);

              $ay <=>         $by
  || $m2n{lc $am} <=> $m2n{lc $bm}
  ||          $ad <=>         $bd;
}

要被比较的两个日期字符串，和先前一样，放在$a和$b里，然后拆分成$ay，$by，$am等。$ay与$by，是年份，最先比较。这里的||操作符是个一般的习惯用法，在排序的比较器中用第二个关键词排序。||操作符返回它的左操作数，除非那是零，那种情况它就返回右操作数。如果年份相同，那么$ay <=> $by返回零，||操作符把控制传递到进入月份的表达式部分，用来解开关联的部分。但是如果年份不同，那么第一个<=>的结果是非零，这就是||表达式的结果，指示sort如何把$a与$b排序到结果列表中，而不必再看月份和日子了。如果控制传递到了$am <=> $bm部分，会发生同样的事情。月份被比较；如果结果是结论性的，那么函数立即返回，如果月份相同，控制传递到最后的日子比较的决胜局。

从内部看，Perl的sort操作符已经被多种算法实现，运行时间是O(n log n)。这意味着对一个大n倍的列表排序一般会花费比n倍稍微长的时间。如果列表规模加倍，运行时间比双倍更多。下面的表比较了参数列表的长度和比较器函数通常的调用次数：

   Length             # calls            calls / element
        5                   7                 1.40
       10                  26                 2.60
       20                  60                 3.00
       40                 195                 4.87
       80                 417                 5.21
      100                 569                 5.69
     1000                9502                 9.50
    10000              139136                13.91

我如此得到“# call”列的，依照指示的长度产生一列随机数，然后用一个比较器函数排序，每次被调用，计数器就增加。调用的次数将因列表和比较器函数而不同，但这些值是典型的。

现在考察有10 000个日期的列表。139 136次比较器函数的调用，每次调用执行两次模式匹配操作，所以一共有278 272次模式匹配。这意味着每个日期平均拆分成年、月、日27.8次。由于给定日期的这三个组成部分不会改变，显然26.8次模式匹配是浪费的。

首先想到的是，使chronologically函数带记忆，但这实际上行不通。尽管sort将以相同的日期反复调用chronologically函数，但它不会对同一对（pair）日期调用两次（除非，当然，输入列表包含重复的日期）。由于散列键必须结合两个参数，带记忆的函数将永远不会有一次缓存命中。

而本文是采取稍微不同的做法，只使函数中浪费的部分带记忆。这将需要能处理一个返回列表的函数的memoize()版本。

### Code Library: chrono-2
@sorted_dates = sort chronologically @dates;

%m2n =
   ( jan =>      1, feb =>      2, mar =>      3,
     apr =>      4, may =>      5, jun =>      6,
     jul =>      7, aug =>      8, sep =>      9,
     oct =>     10, nov =>     11, dec =>     12, );

sub chronologically {
  my ($am, $ad, $ay) = split_date($a);
  my ($bm, $bd, $by) = split_date($b);

              $ay <=>         $by
  || $m2n{lc $am} <=> $m2n{lc $bm}
  ||          $ad <=>         $bd;
}

sub split_date {
  $_[0] =~ /(\w{3}) (\d+), (\d+)/;
}

如果对split_date设置缓存，仍将进行278 272次调用，但是268 272次将导致缓存命中，只有剩下的10 000次需要模式匹配。唯一的挑战是将不得不手动写缓存代码，因为split_date返回一个列表，而memoize函数只能正确处理返回标量的函数。

此刻，可以向三个方向行进。可以增强memoize函数能正确处理列表上下文返回。（或者可以使用CPAN Memoize模块，它能对返回列表的函数正确工作。）可以手写缓存代码。但更有益的是绕过这个问题，通过用一个返回标量的函数替代split_date。如果标量构造正确，将能免除chronologically中复杂的||逻辑，而仅使用一个简单的字符串比较。

这里有一个策略：拆分日期，和先前一样，但是不再返回一列字段，而是把一列字段放入一个单一的字符串。字段将按照要检查的次序出现在字符串中，年份最先，然后是月份，然后是日期。对"Apr 16, 1945"的字符串将是"19450416"。当用cmp比较字符串时，Perl将尽快停止比较，因此如果一个字符串以"1998..."开头，而另一个以"1996..."开头，Perl一看到第四个字符就知道了结果，不再操心检查月份和日期。字符串的比较是非常快的，多半可以战胜一系列<=>和||。

修改后的代码如下：

### Code Library: chrono-3
@sorted_dates = sort chronologically @dates;
%m2n =
   ( jan =>      1, feb =>      2, mar =>      3,
     apr =>      4, may =>      5, jun =>      6,
     jul =>      7, aug =>      8, sep =>      9,
     oct =>     10, nov =>     11, dec =>     12, );
sub chronologically {
  date_to_string($a) cmp date_to_string($b)
}
sub date_to_string {
  my ($m, $d, $y) = ($_[0] =~ /(\w{3}) (\d+), (\d+)/);
  sprintf "%04d%02d%02d", $y, $m2n{lc $m}, $d;
}

现在可以使date_to_string带记忆。这能否战胜先前的版本，依赖sprintf加cmp是否比<=>加||更快。一般需要一个基准比较测试，它证明带sprintf的代码要快大约两倍。

排序经常是在程序里需要尽可能压榨出最多性能的地方之一。对一个10 000个日期的列表，可以精确地调用sprintf 10 000次（一旦date_to_string已经带记忆），但是仍然要调用date_to_string 278 272次。随着日期列表变长，这种不对称也将增长，函数调用的时间最终将超过排序的运行时间。
可以通过简化缓存处理和削减268 272次额外的函数调用获得更多的速度优势。为此，回到手写的缓存代码：

### Code Library: chrono-orc
{ my %cache;
  sub chronologically {
    ($cache{$a} ||= date_to_string($a))
       cmp
    ($cache{$b} ||= date_to_string($b))
  }
}

这里使用||=操作符，看上去几乎是为缓存应用定制的。$x ||= $y产生$x的值，如果$x是真的；如果不是，它把$y赋值给$x并产生$y的值。$cache{$a ||= date_to_string($a)}查看$cache{$a}是否有一个真值，如果有，那就是用cmp操作符比较时使用过的值。如果还没有任何东西缓存，那么$cache{$a}是假，然后chronologically就调用date_to_string，把结果存在缓存里，并在比较时使用这个结果。这种内联的缓存技术就称为Orcish Maneuver，因为它的本质特性是||和缓存。

使date_to_string带记忆，产生2.5倍的加速；用Orcish Maneuver代替记忆术产生额外的两倍加速。

机敏的读者将会注意到Orcish Maneuver不总是完全正确。在这个例子里，date_to_string不可能总是返回一个假值。但是短暂返回计算每个投资者的投资总数的例子：

{ my %cache;
  sub by_total_invested {
    ($cache{$a} ||= total_invested($a))
       <=>
    ($cache{$b} ||= total_invested($b))
  }
}

假设Luke Hermit根本没投资过。他第一次出现在by_total_invested时，为Luke调用total_invested，然后得到0。把这个0以Luke为键存放在缓存里。Luke下次出现时，检查缓存并发现存放在那里的值是0。因为这个值是假，所以再次调用total_invested，即使已经命中缓存了。这里的问题是||=操作符无法区分缓存脱靶与缓存命中的值恰好是假。

Lisp玩家给这种现象取了个名字：称为半谓词问题（semipredicate problem）。一个谓词（predicate）就是一个返回布尔值的函数。一个半谓词（semipredicate）能返回一个特定的假值，表示失败，或者许多有意义的真值之一，表示成功。$cache{$a}是一个半谓词，因为它可能返回0，或者无数有用的真值之一。当0也是真值之一时，就遇到麻烦了，因为无法把它与0意味着假区分开。这就是半谓词问题。

在先前的例子里，半谓词问题不会引起太多的麻烦。仅有的代价就是对那些没有投资过的人们会多些额外的total_invested调用。如果发现这些额外的调用在明显地拖慢排序（不经常，但有可能），就可以用下面的版本替换比较器函数：

{ my %cache;
  sub by_total_invested {
    (exists $cache{$a} ? $cache{$a} : ($cache{$a} = total_invested($a)))
        <=>
    (exists $cache{$b} ? $cache{$b} : ($cache{$b} = total_invested($b)))
  }
}

这个版本使用了可靠的exists操作符检查缓存是否被占据。即使存储在缓存的值是假，exists仍将返回真。请注意，不过，这样比简单版本慢10%左右。

还有个方法几乎没有额外的代价，但具有奇异的缺点。它基于这样的秘籍：当Perl里的字符串"0e0"用做一个数字时，它就完全和0一样；e0被Perl解释成科学计数法的指数。但是和普通的0不同，字符串"0e0"是真而不是假。
如果这样写by_total_invested，就几乎没付出额外的代价而避免了半谓词问题：

{ my %cache;
  sub by_total_invested {
    ($cache{$a} ||= total_invested($a) || "0e0")
       <=>
    ($cache{$b} ||= total_invested($b) || "0e0")
  }
}

如果total_invested返回零，函数就缓存"0e0"。下次寻找同一个客户投资的总数时，函数在缓存里看到"0e0"，而这个值是真，所以它不会第二次调用total_invested。这个"0e0"就是给<=>操作符比较的值，但是在数字比较中它表现得和0完全一样，这也正是我们期望的。额外的||操作的速度损失，仅存在于total_invested()返回一个假值的时候，是非常小的。