泊松片段抽取---命中率的一般求解方法

Pennyyu0214

已于 2023-04-18 19:54:10 修改

阅读量176

点赞数

文章标签：机器学习算法人工智能

于 2023-04-17 20:45:32 首次发布

本文链接：https://blog.csdn.net/pennyyu123/article/details/130208103

版权

本文详细探讨了基于泊松分布的目标片段抽取方法中序列中任意位置词的选取率问题。介绍了命中率的递推公式，特别是动态规划思想在解决序列命中率计算中的应用。文章分为理论部分和算法描述，包括Combination算法和命中率算法的实现，最后给出了命中率和不命中率的统一计算形式，并讨论了动态规划如何提高计算效率。

摘要由CSDN通过智能技术生成

一、前言

在《机器翻译专用词开发实践》一文中，我们提出了一种基于泊松分布的目标片段抽取方法，并利用该方法批量加工词约束的专用词模型训练语料。还记得当时文中提出了一个问题，就是如何求序列中任意 $s_i$ 的选取率问题。当时介绍说这个概率的计算公式是一种递推形式，本文我们来探讨下这个递推公式及其背后的常用思想----动态规划。

二、理论部分

假设给定一输入序列 $S$ ，其长度为 $n$ ，执行一次泊松抽取后的结果只能有两种情况：

执行后到达末尾；
执行后未到达末尾。

其中1又分为两种子情况：①跨越时就到达末尾；②片段选取时到达末尾。

这里要注意的是，如果跨越时就到达末尾，说明序列长度 $n$ 小于或等于 $s$ ，否则一次跨越无论如何也不能结束；对于1执行后到达末尾的情况，则是在任何情况下都有可能发生的，很大程度取决于泊松分布观察值的大小，当然在序列较长时一般不会发生。

对于情况2，即执行后未到达末尾时，则需要针对剩余部分递归调用抽取算法，并返回子问题的结果。
因此若要保证 $s_n$ 有效命中，至少需要确保上述的①跨越时就到达末尾不能发生。我们来分别探讨不同情况，为保持一个清晰的思路，在分析 $s_i$ 的命中率时，假定 $s_i$ 是序列 $S$ 的最后一个token，即 $s_n$ ，并分别讨论以下情况：

1.如果执行一次泊松抽取时到达了末尾，则 $s_n$ 的命中率计算如下： $E_{ended}(s_n)=\begin{cases} 0 & n<=1,\\\\ \frac{1}{s}\sum_{i=1}^{Min(n-1,s-1)}(1-\sum_{j=0}^{n-i-1} \frac{λ^{j}}{j!}e^{-λ}), & else\\ \end{cases}$
其中 $\frac{λ^{j}}{j!}e^{-λ}$ 是泊松分布在 $j$ 的概率函数，相信有些读者看出来了。其他说明如下：

① 第一个条件即 $n <= 1$ 是一定不会命中 $s_n$ 的，因为跨越量服从 $U (1, s)$ 均匀分布，长度等于1时 $s_n$ 一定会被跳过；
② 第二个条件为从起始位置到 $(n - 1)$ 跨度情况的累加，为什么将累加计算的上界限定到了 $(n - 1)$ ？因为跨越量不能涉及到 $s_n$ . 内层的累加代表排除的非法泊松抽取长度，例如 $s = 8$ ， $n = 6$ 时，当 $i = 1$ 情况下，跨越量为1，则剩下的5个词需全部被泊松抽取才能使 $s_n$ 命中，因此需要扣除不合法的泊松观察值（即0-4），即内层累加的 $(n - i - 1)$ 上限设置。此外由于跨越量只能限制在 $(1, s)$ 之间，因此如果 $n > s$ ，需要限制累加上界到 $(s - 1)$ 以内，因此最终上界形式为 $M in (n - 1, s - 1)$ .

2.如果执行后未到达末尾，即上述说明②中排除的情况时，则需要递归调用方法了。但又由于执行操作也伴随着多样变化（跨越量和抽取长度的不确定性），因此 $s_n$ 命中率的计算包含不同变化的累加形式，公式如下：
$E_{recursion}(s_n)=\sum_{i=1}^{n-1}Comb(i, s, λ)*E_{recursion}(s_{n-i})$
其中 $C o mb (i, s, λ)$ 代表在参数 $s$ 、均值 $λ$ 的条件下，对执行一次抽取步骤的遍历长度为 $i$ 时的概率，计算如下：
$λ)=\frac{1}{s}\sum_{n=1}^{Min(i,s)}\frac{λ^{(i-n)}}{(i-n)!}e^{-λ}$
说明：如果限定了遍历长度为 $i$ ，则需要考虑所有和为 $i$ 的不同 $m, p$ 的组合，因此最终计算是一个累加形态；同时还要考虑 $i$ 与 $s$ 之间的大小关系，如果 $i$ 大于 $s$ ，则累加计算只能到 $s$ 为止，因此累加上界为 ${Min(i,s)}$ ，最终构成上述这种加了 $M in$ 操作的累加形式。

应用条件

$s_i$ 的命中率可以采用上述计算方式，当且仅当起始位置位于跨越操作前的位置，即起始位置是执行算法第1步（《机器翻译专用词开发实践》第3.3节）的位置。

三、算法描述

本章我们详细介绍泊松抽取算法命中率求解及Comb子算法的实现。

3.1 Combination算法

第二章理论介绍时涉及到一个叫 $C o mb$ 的计算方法，用于计算给定 $s, λ$ 参数下求解长度遍历长度 $i$ 的概率表示，同时也给出了其形式。本节使用伪代码方式实现计算，给出伪代码描述如下：

输入：跨度参数s，均值λ，长度i
输出：概率p_i
p_i ← 0.0
for each(n) in [1,2,..., i] do
	if n <= s then
		total ← total + (1/s * Poisson(i-n, λ))   # Poisson(i-n, λ)获得均值λ的泊松分布在(i-n)的概率
	end if
end for
return p_i

3.2 命中率算法实现

接下来就是命中率期望的算法描述，二中给出“终止”和“递归”两种形态的算法表述，使用伪代码实现如下：

输入：长度n, 跨度参数s，均值λ
输出：命中率E_n
E_n ← 0.0
if n == 1 then
	return 0
for each(i) in [1,2,...,n-1] do
	E_n ← E_n + Comb(i, s, λ) * Call(n-i, s, λ)  # Call代表递归调用当前算法
end for
if n <= s then    # 如果长度n小于s，则需要考虑一次达到末尾的情况
	for each(i) in [1,2,...,n-1] do
		E_n ← E_n + 1/s * Sigma(Poisson(x, s, λ)， 0， n-i-1） # 这里我定义了个Sigma代表使用Poisson累加，起止为[0, n-i-1]
	end for
end if
return E_n

3.3 动态规划

伪代码读到这里，也相信很多读者看出来这个算法执行时多次以“较小的 $n$ ”为参数调用本身，这意味着算法可以拆分出“子问题”。前文的理论部分介绍到，泊松抽取的命中率计算在“未到达末尾”的情况下存在递归调用关系，同时也伴随多个跨越量 $m$ 采样情况下的累加，因而这个递归调用很可能成为多次的重复操作，因此多次调用+子问题便构成了动态规划思路。因此3.2的命中率算法加入备忘录机制，构造成执行效率更高的方案：

输入：长度n, 跨度参数s，均值λ
输出：命中率E_n
E_n ← 0.0
combs ← [-1] * (n-1)
probs ← [-1] * (n-1)
if n == 1 then
	return 0
for each(i) in [1,2,...,n-1] do
	cm = 0
	pb = 0
	if combs[i] != -1 then    #判断备忘录中有无目标值，如果有则直接获取，没有再执行计算
		cm = combs[i]
	else
		cm = Comb(i, s, λ)
		combs[i] = cm
	if probs[n-i] != -1 then
		cm = probs[n-i]
	else
		cm =  Call(n-i, s, λ)
		probs[n-i] = cm
	E_n ← E_n + cm * pb
end for
if n <= s then    # 如果长度n小于s，则需要考虑一次达到末尾的情况
	for each(i) in [1,2,...,n-1] do
		E_n ← E_n + 1/s * Sigma(Poisson(x, s, λ)， 0， n-i-1） # 这里我定义了个Sigma代表使用Poisson累加，起止为[0, n-i-1]
	end for
end if
return E_n

四、最终形式

4.1 命中率计算

我们将第二章的公式描述整合为一个统一的形式，表述如下：在跨度参数为 $s$ ，泊松均值为 $λ$ 的泊松片段抽取算法中，对于序列中任意位置的词 $s_i$ ，假设算法在 $s_i$ 的位置上可以从第1步开始执行，则从 $s_i$ 起向后第 $n$ 个词的命中率期望值 $E(s_{i+n})$ 可以简化表示为 $E (n)$ ，其计算公式如下：
$\begin{cases} 0, & \text {n <= 1,}\\\\ E_{ended}(s_n)+\sum_{i=1}^{n-1} Comb(i, s, λ)*E(n-i), & \text {else}\\ \end{cases}\\ =\begin{cases} 0, & \text {n <= 1,}\\\\ \frac{1}{s}\sum_{i=1}^{Min(n-1,s-1)}(1-\sum_{j=0}^{n-i-1} \frac{λ^{j}}{j!}e^{-λ})+\sum_{i=1}^{n-1} Comb(i, s, λ)*E(n-i), & \text {else}\\ \end{cases}\\\\$

4.2 不命中率计算

与命中率类似，不命中率是指泊松抽取时 $s_n$ 未被选中的概率，我们在此也给出相应的表达形式。首先分析不命中的情况，分析如下：

执行后到达末尾时， $s_n$ 不命中当且仅当抽取时就到达末尾，否则一定命中；
执行后未到达末尾时，同样需要递归调用来计算。

给出条件1中 $s_n$ 的不命中率 $E_{ended}^{unt}(s_n)$ (unt即untargeted，未命中)的计算公式如下：
$E_{ended}^{unt}(s_n)=\begin{cases} 0 & n=0,\\\\ Max(0, \frac{s-n+1}{s}) & \text {else}\\\\ \end{cases}$
说明如下：
①条件二下， $s_n$ 不被命中当且仅当跨越量 $m >= n$ 时，例如 $s = 8$ 、 $n = 6$ 条件下，使 $s_n$ 不被命中的跨越量为6、7或8，因此不命中率为 $3/8$ ；当 $n = 1$ 时， $s_n$ 一定会被跳过，因此不命中率为1；
②当长度 $n$ 大于均匀分布的最大观测值时， $s_n$ 会超出最大跨越范围，不命中率变成0，因此使用Max函数囊括该情况和①.

最终在跨度参数为 $s$ ，泊松均值为 $λ$ 的泊松片段抽取算法中，对于序列中任意位置的词 $s_i$ ，假设算法在 $s_i$ 的位置上可以从第1步开始执行，则从 $s_i$ 起向后第 $n$ 个词的不命中率期望值 $E^{unt}(s_{i+n})$ 可以简化表示为 $E^{unt}(n)$ ，其计算公式如下：
$E^{unt}(n)= \begin{cases} 0, & \text {n = 0,}\\\\ E_{ended}^{unt}(s_n)+\sum_{i=1}^{n-1} Comb(i, s, λ)*E(n-i), & \text {else}\\ \end{cases}\\ =\begin{cases} 0, & \text {n = 0,}\\\\ 1, & \text {n = 1,}\\\\ Max(0, \frac{s-n+1}{s})+\sum_{i=1}^{n-1} Comb(i, s, λ)*E^{unt}(n-i), & \text {else}\\ \end{cases}\\\\$
由公式可以看出，其实命中率和不命中率的整体公式差别在于 $E_{ended}$ 形式不同，其次是对于 $n = 1$ 时的取值也不同。除此之外整体基本保持一致，都是递推形式。