泊松片段抽取---命中率的一般求解方法

Pennyyu0214

已于 2023-04-18 19:54:10 修改

阅读量151

点赞数

文章标签：机器学习算法人工智能

于 2023-04-17 20:45:32 首次发布

本文链接：https://blog.csdn.net/PennyYu123/article/details/130208103

版权

一、前言

在《机器翻译专用词开发实践》一文中，我们提出了一种基于泊松分布的目标片段抽取方法，并利用该方法批量加工词约束的专用词模型训练语料。还记得当时文中提出了一个问题，就是如何求序列中任意 $s_i$ 的选取率问题。当时介绍说这个概率的计算公式是一种递推形式，本文我们来探讨下这个递推公式及其背后的常用思想----动态规划。

二、理论部分

假设给定一输入序列 $S$ ，其长度为 $n$ ，执行一次泊松抽取后的结果只能有两种情况：

执行后到达末尾；
执行后未到达末尾。

其中1又分为两种子情况：①跨越时就到达末尾；②片段选取时到达末尾。

这里要注意的是，如果跨越时就到达末尾，说明序列长度 $n$ 小于或等于 $s$ ，否则一次跨越无论如何也不能结束；对于1执行后到达末尾的情况，则是在任何情况下都有可能发生的，很大程度取决于泊松分布观察值的大小，当然在序列较长时一般不会发生。

对于情况2，即执行后未到达末尾时，则需要针对剩余部分递归调用抽取算法，并返回子问题的结果。
因此若要保证 $s_n$ 有效命中，至少需要确保上述的①跨越时就到达末尾不能发生。我们来分别探讨不同情况，为保持一个清晰的思路，在分析 $s_i$ 的命中率时，假定 $s_i$ 是序列 $S$ 的最后一个token，即 $s_n$ ，并分别讨论以下情况：

1.如果执行一次泊松抽取时到达了末尾，则 $s_n$ 的命中率计算如下： $E_{ended}(s_n)=\begin{cases} 0 & n<=1,\\\\ \frac{1}{s}\sum_{i=1}^{Min(n-1,s-1)}(1-\sum_{j=0}^{n-i-1} \frac{λ^{j}}{j!}e^{-λ}), & else\\ \end{cases}$
其中 $\frac{λ^{j}}{j!}e^{-λ}$ 是泊松分布在 $j$ 的概率函数，相信有些读者看出来了。其他说明如下：

① 第一个条件即 $n <= 1$ 是一定不会命中 $s_n$ 的，因为跨越量服从 $U (1, s)$ 均匀分布，长度等于1时 $s_n$ 一定会被跳过；
② 第二个条件为从起始位置到 $(n - 1)$ 跨度情况的累加，为什么将累加计算的上界限定到了 $(n - 1)$ ？因为跨越量不能涉及到 $s_n$ . 内层的累加代表排除的非法泊松抽取长度，例如 $s = 8$ ， $n = 6$ 时，当 $i = 1$ 情况下，跨越量为1，则剩下的5个词需全部被泊松抽取才能使 $s_n$ 命中，因此需要扣除不合法的泊松观察值（即0-4），即内层累加的 $(n - i - 1)$ 上限设置。此外由于跨越量只能限制在 $(1, s)$ 之间，因此如果 $n > s$ ，需要限制累加上界到 $(s - 1)$ 以内，因此最终上界形式为 $M in (n - 1, s - 1)$ .

2.如果执行后未到达末尾，即上述说明②中排除的情况时，则需要递归调用方法了。但又由于执行操作也伴随着多样变化（跨越量和抽取长度的不确定性），因此 $s_n$ 命中率的计算包含不同变化的累加形式，公式如下：
$E_{recursion}(s_n)=\sum_{i=1}^{n-1}Comb(i, s, λ)*E_{recursion}(s_{n-i})$
其中 $C o mb (i, s, λ)$ 代表在参数 $s$ 、均值 $λ$ 的条件下，对执行一次抽取步骤的遍历长度为 $i$ 时的概率，计算如下：
$λ)=\frac{1}{s}\sum_{n=1}^{Min(i,s)}\frac{λ^{(i-n)}}{(i-n)!}e^{-λ}$
说明：如果限定了遍历长度为 $i$ ，则需要考虑所有和为 $i$ 的不同 $m, p$ 的组合，因此最终计算是一个累加形态；同时还要考虑 $i$ 与 $s$ 之间的大小关系，如果 $i$ 大于 $s$ ，则累加计算只能到 $s$ 为止，因此累加上界为 ${Min(i,s)}$ ，最终构成上述这种加了 $M in$ 操作的累加形式。

应用条件

$s_i$ 的命中率可以采用上述计算方式，当且仅当起始位置位于跨越操作前的位置，即起始位置是执行算法第1步（《机器翻译专用词开发实践》第3.3节）的位置。

三、算法描述

本章我们详细介绍泊松抽取算法命中率求解及Comb子算法的实现。

3.1 Combination算法

第二章理论介绍时涉及到一个叫 $C o mb$ 的计算方法，用于计算给定 $s, λ$ 参数下求解长度遍历长度 $i$ 的概率表示，同时也给出了其形式。本节使用伪代码方式实现计算，给出伪代码描述如下：

输入：跨度参数s，均值λ，长度i
输出：概率p_i
p_i ← 0.0
for each(n) in [1,2,..., i] do
	if n <= s then
		total ← total + (1/s * Poisson(i-n, λ))   # Poisson(i-n, λ)获得均值λ的泊松分布在(i-n)的概率
	end if
end for
return p_i

3.2 命中率算法实现

接下来就是命中率期望的算法描述，二中给出“终止”和“递归”两种形态的算法表述，使用伪代码实现如下：

输入：长度n, 跨度参数s，均值λ
输出：命中率E_n
E_n ← 0.0
if n == 1 then
	return 0
for each(i) in [1,2,...,n-1] do
	E_n ← E_n + Comb(i, s, λ) * Call(n-i, s, λ)  # Call代表递归调用当前算法
end for
if n <= s then    # 如果长度n小于s，则需要考虑一次达到末尾的情况
	for each(i) in [1,2,...,n-1] do
		E_n ← E_n + 1/s * Sigma(Poisson(x, s, λ)， 0， n-i-1） # 这里我定义了个Sigma代表使用Poisson累加，起止为[0, n-i-1]
	end for
end if
return E_n

3.3 动态规划

伪代码读到这里，也相信很多读者看出来这个算法执行时多次以“较小的 $n$ ”为参数调用本身，这意味着算法可以拆分出“子问题”。前文的理论部分介绍到，泊松抽取的命中率计算在“未到达末尾”的情况下存在递归调用关系，同时也伴随多个跨越量 $m$ 采样情况下的累加，因而这个递归调用很可能成为多次的重复操作，因此多次调用+子问题便构成了动态规划思路。因此3.2的命中率算法加入备忘录机制，构造成执行效率更高的方案：

输入：长度n, 跨度参数s，均值λ
输出：命中率E_n
E_n ← 0.0
combs ← [-1] * (n-1)
probs ← [-1] * (n-1)
if n == 1 then
	return 0
for each(i) in [1,2,...,n-1] do
	cm = 0
	pb = 0
	if combs[i] != -1 then    #判断备忘录中有无目标值，如果有则直接获取，没有再执行计算
		cm = combs[i]
	else
		cm = Comb(i, s, λ)
		combs[i] = cm
	if probs[n-i] != -1 then
		cm = probs[n-i]
	else
		cm =  Call(n-i, s, λ)
		probs[n-i] = cm
	E_n ← E_n + cm * pb
end for
if n <= s then    # 如果长度n小于s，则需要考虑一次达到末尾的情况
	for each(i) in [1,2,...,n-1] do
		E_n ← E_n + 1/s * Sigma(Poisson(x, s, λ)， 0， n-i-1） # 这里我定义了个Sigma代表使用Poisson累加，起止为[0, n-i-1]
	end for
end if
return E_n

四、最终形式

4.1 命中率计算

我们将第二章的公式描述整合为一个统一的形式，表述如下：在跨度参数为 $s$ ，泊松均值为 $λ$ 的泊松片段抽取算法中，对于序列中任意位置的词 $s_i$ ，假设算法在 $s_i$ 的位置上可以从第1步开始执行，则从 $s_i$ 起向后第 $n$ 个词的命中率期望值 $E(s_{i+n})$ 可以简化表示为 $E (n)$ ，其计算公式如下：
$\begin{cases} 0, & \text {n <= 1,}\\\\ E_{ended}(s_n)+\sum_{i=1}^{n-1} Comb(i, s, λ)*E(n-i), & \text {else}\\ \end{cases}\\ =\begin{cases} 0, & \text {n <= 1,}\\\\ \frac{1}{s}\sum_{i=1}^{Min(n-1,s-1)}(1-\sum_{j=0}^{n-i-1} \frac{λ^{j}}{j!}e^{-λ})+\sum_{i=1}^{n-1} Comb(i, s, λ)*E(n-i), & \text {else}\\ \end{cases}\\\\$

4.2 不命中率计算

与命中率类似，不命中率是指泊松抽取时 $s_n$ 未被选中的概率，我们在此也给出相应的表达形式。首先分析不命中的情况，分析如下：

执行后到达末尾时， $s_n$ 不命中当且仅当抽取时就到达末尾，否则一定命中；
执行后未到达末尾时，同样需要递归调用来计算。

给出条件1中 $s_n$ 的不命中率 $E_{ended}^{unt}(s_n)$ (unt即untargeted，未命中)的计算公式如下：
$E_{ended}^{unt}(s_n)=\begin{cases} 0 & n=0,\\\\ Max(0, \frac{s-n+1}{s}) & \text {else}\\\\ \end{cases}$
说明如下：
①条件二下， $s_n$ 不被命中当且仅当跨越量 $m >= n$ 时，例如 $s = 8$ 、 $n = 6$ 条件下，使 $s_n$ 不被命中的跨越量为6、7或8，因此不命中率为 $3/8$ ；当 $n = 1$ 时， $s_n$ 一定会被跳过，因此不命中率为1；
②当长度 $n$ 大于均匀分布的最大观测值时， $s_n$ 会超出最大跨越范围，不命中率变成0，因此使用Max函数囊括该情况和①.

最终在跨度参数为 $s$ ，泊松均值为 $λ$ 的泊松片段抽取算法中，对于序列中任意位置的词 $s_i$ ，假设算法在 $s_i$ 的位置上可以从第1步开始执行，则从 $s_i$ 起向后第 $n$ 个词的不命中率期望值 $E^{unt}(s_{i+n})$ 可以简化表示为 $E^{unt}(n)$ ，其计算公式如下：
$E^{unt}(n)= \begin{cases} 0, & \text {n = 0,}\\\\ E_{ended}^{unt}(s_n)+\sum_{i=1}^{n-1} Comb(i, s, λ)*E(n-i), & \text {else}\\ \end{cases}\\ =\begin{cases} 0, & \text {n = 0,}\\\\ 1, & \text {n = 1,}\\\\ Max(0, \frac{s-n+1}{s})+\sum_{i=1}^{n-1} Comb(i, s, λ)*E^{unt}(n-i), & \text {else}\\ \end{cases}\\\\$
由公式可以看出，其实命中率和不命中率的整体公式差别在于 $E_{ended}$ 形式不同，其次是对于 $n = 1$ 时的取值也不同。除此之外整体基本保持一致，都是递推形式。

Pennyyu0214

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
泊松片段抽取---命中率的一般求解方法

在《机器翻译专用词实践总结》一文中，我们提出了一种基于泊松分布的目标片段抽取方法，并利用该方法批量加工词约束的专用词模型训练语料。还记得当时文中提出了一个问题，就是如何求序列中任意。当时介绍说这个概率的计算公式是一种递推形式，本文我们来探讨下这个递推公式及其背后的常用思想----动态规划。为3.5的泊松片段抽取算法中，对于序列中任意位置的词。就是泊松分布在(i-n)的概率函数。的位置上可以从第1步开始执行，则从。相信有些读者看出来了，式子中。
复制链接

扫一扫