Self-Consistency

维度世界

已于 2025-01-04 17:26:57 修改

阅读量717

点赞数 26

文章标签：人工智能

于 2025-01-04 17:14:36 首次发布

本文链接：https://blog.csdn.net/qq_52157933/article/details/144932463

版权

生成多样化的推理路径：
给定一个语言模型 $M$ ，输入一个提示 $\text{prompt}$ 和问题 $\text{question}$ 。从语言模型的解码器中采样 $m$ 个候选输出，生成多样化的推理路径 $r_i$ 和对应的答案 $a_i$ ：

$P(r_i, a_i | \text{prompt}, \text{question}) = P(r_i | \text{prompt}, \text{question}) \cdot P(a_i | r_i, \text{prompt}, \text{question})$

其中， $r_i$ 表示第 $i$ 条推理路径， $a_i$ 表示对应的答案。
计算最终答案的概率：
对每个生成的答案 $\in A$ （答案集合）进行边际化，将所有与答案 $a$ 对应的推理路径的概率进行加总，以获得答案 $a$ 的一致性得分：
$\text{prompt}, \text{question}) = \sum_{i=1}^{m} P(r_i, a_i | \text{prompt}, \text{question}) \cdot \delta(a_i = a)$

这里， $\delta(a_i = a)$ 是一个指示函数，当 $a_i = a$ 时取值为 1，否则为 0。
选择最一致的答案：
根据边际化后的概率选择一致性最高的答案作为最终输出：
$a^* = \arg\max_{a \in A} P(a | \text{prompt}, \text{question})$

采样：
采样可以通过多种策略实现，例如温度采样（Temperature Sampling）、Top-K采样或Nucleus采样（Top-P采样）。采样参数（如温度 $T$ 、Top-K中的 $k$ 或Top-P中的 $p$ ）可以根据任务需求进行调整。
概率计算：
每条推理路径 $r_i$ 和答案 $a_i$ 的联合概率可以表示为：

$P(r_i, a_i | \text{prompt}, \text{question}) = \prod_{k=1}^{K} P(t_k | \text{prompt}, \text{question}, t_1, \ldots, t_{k-1})$

其中， $t_k$ 是 $r_i$ 和 $a_i$ 的第 $k$ 个生成的token，总长度为 $K$ 。
答案聚合：
在实际中可以通过多数表决（Majority Voting）或加权投票的方式进行答案聚合。例如，多数表决直接选择出现频率最高的答案：
$a^* = \arg\max_{a \in A} \sum_{i=1}^{m} \delta(a_i = a)$

加权投票是一种改进的答案聚合方式，不仅仅考虑答案出现的频率，还结合生成答案时的概率分布进行权重计算。

加权投票公式：
每个答案 $a$ 的加权得分 $W (a)$ 定义为：

$\sum_{i=1}^m P(r_i, a_i | \text{prompt}, \text{question}) \cdot \delta(a_i = a)$

其中：
- $W (a)$ ：答案 $a$ 的加权得分；
- $\delta(a_i = a)$ ：指示函数，当 $a_i = a$ 时取值为 1；
- $P(r_i, a_i | \text{prompt}, \text{question})$ ：推理路径 $r_i$ 和答案 $a_i$ 的联合概率。
选择答案：
选择加权得分最大的答案作为最终答案：

$a^* = \arg\max_{a \in A} W(a)$
概率计算：
联合概率 $P(r_i, a_i | \text{prompt}, \text{question})$ 可以通过以下两种方式计算：
- 未归一化概率：
  $P(r_i, a_i | \text{prompt}, \text{question}) = \prod_{k=1}^{K} P(t_k | \text{prompt}, \text{question}, t_1, \ldots, t_{k-1})$
  其中， $t_k$ 是 $r_i$ 和 $a_i$ 的第 $k$ 个生成的token，总长度为 $K$ 。
- 归一化概率：
  $P(r_i, a_i | \text{prompt}, \text{question}) = \exp\left(\frac{1}{K} \sum_{k=1}^K \log P(t_k | \text{prompt}, \text{question}, t_1, \ldots, t_{k-1})\right)$