BLEU 分数和FLOPs指标

最新推荐文章于 2024-08-20 18:45:43 发布

six.学长

最新推荐文章于 2024-08-20 18:45:43 发布

阅读量318

点赞数 4

分类专栏：深度学习文章标签：机器学习

本文链接：https://blog.csdn.net/m0_51200050/article/details/140081550

版权

63 篇文章 0 订阅

订阅专栏

BLEU（Bilingual Evaluation Understudy）分数是一种用于评估机器翻译结果质量的指标。它通过比较机器翻译结果与一个或多个参考翻译之间的相似度来衡量翻译的准确性。BLEU 分数的值通常在 0 到 1 之间，值越高表示翻译质量越好。

N-gram 比较：BLEU 分数基于 N-gram 的比较。N-gram 是指连续 N 个词的序列。例如，对于句子 “the cat is on the mat”，它的 1-gram 是 “the”, “cat”, “is”, “on”, “the”, “mat”，它的 2-gram 是 “the cat”, “cat is”, “is on”, “on the”, “the mat”。
精确度（Precision）：计算机器翻译结果中的 N-gram 与参考翻译中 N-gram 的匹配程度。精确度是匹配的 N-gram 数量除以机器翻译结果中 N-gram 的总数量。
BP（Brevity Penalty，简短惩罚）：为了避免机器翻译结果通过生成过短的翻译而获得高分，BLEU 分数引入了简短惩罚。如果机器翻译结果的长度短于参考翻译，简短惩罚将降低最终的 BLEU 分数。
加权几何平均：对于不同的 N-gram（通常使用 1-gram 到 4-gram），分别计算精确度，并取这些精确度的加权几何平均值，再乘以简短惩罚得到最终的 BLEU 分数。

公式：
$\text{BLEU} = \text{BP} \cdot \exp \left( \sum_{n=1}^N w_n \log p_n \right)$

其中：
- $\text{BP}$ 是简短惩罚。
- $w_n$ 是第 $n$ 个 N-gram 的权重。
- $p_n$ 是第 $n$ 个 N-gram 的精确度。

假设参考翻译是 “the cat is on the mat”，机器翻译结果是 “the cat is on mat”。

1-gram 精确度：机器翻译结果中的 1-gram 是 “the”, “cat”, “is”, “on”, “mat”。参考翻译中的 1-gram 是 “the”, “cat”, “is”, “on”, “the”, “mat”。共有 4 个匹配的 1-gram，精确度为 $\frac{4}{5} = 0.8$ 。
2-gram 精确度：机器翻译结果中的 2-gram 是 “the cat”, “cat is”, “is on”, “on mat”。参考翻译中的 2-gram 是 “the cat”, “cat is”, “is on”, “on the”, “the mat”。共有 3 个匹配的 2-gram，精确度为 $\frac{3}{4} = 0.75$ 。
简短惩罚：机器翻译结果的长度是 5，参考翻译的长度是 6。因为机器翻译结果短于参考翻译，所以简短惩罚 $\text{BP} = \exp(1 - \frac{6}{5}) = 0.818$ 。
最终 BLEU 分数：假设 1-gram 和 2-gram 的权重均为 0.5，最终 BLEU 分数为 $0.818 \cdot \exp(0.5 \log(0.8) + 0.5 \log(0.75)) = 0.771$ 。

FLOPs（Floating Point Operations）是衡量计算复杂度和性能的指标，表示模型在训练或推理过程中所需的浮点运算次数。FLOPs 越低，表示计算资源消耗越少，训练成本越低。

浮点运算：包括加法、减法、乘法和除法等操作。在深度学习模型中，矩阵乘法是主要的浮点运算。例如，一个大小为 $\times n$ 的矩阵与一个大小为 $\times p$ 的矩阵相乘，需要 $\times m \times n \times p$ 次浮点运算。
层级计算：对于神经网络中的每一层，根据其结构和输入输出的大小，计算所需的浮点运算次数。最终，模型的总 FLOPs 是所有层级 FLOPs 的总和。

假设一个简单的神经网络有两层，每层的输入输出大小如下：

第一层：输入大小为 $128 \times 256$ ，输出大小为 $256 \times 512$ 。所需的 FLOPs 为 $\times 128 \times 256 \times 512 = 33,554,432$ 。
第二层：输入大小为 $256 \times 512$ ，输出大小为 $512 \times 1024$ 。所需的 FLOPs 为 $\times 256 \times 512 \times 1024 = 268,435,456$ 。

总 FLOPs 为 $33, 554, 432 + 268, 435, 456 = 301, 989, 888$ 。

通过理解这两个指标，我们可以更好地评估和优化机器翻译模型的性能和效率。

关注

专栏目录