【LM】(八)语言模型评价指标——困惑度Perplexity原理及代码

本文介绍了语言模型的基本概念,包括如何通过统计预测下一个词,以及困惑度的定义和计算方法。重点讨论了困惑度在评估模型性能中的作用,并提供了实际训练过程中的PPL变化实例。此外,文中还探讨了困惑度受训练数据、标点符号和停用词等因素的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

0.语言模型

语言模型(Language Model,LM),基于统计的语言模型,给出一句话的前k个词,预测第k+1个词,即求第k+1个词出现的概率p(xk+1|x1,x2,...,xk)。在深度网络中,比如bert,可以词前后的内容,预测当前词,类似做完形填空。

1.什么是困惑度

在信息论中,perplexity(困惑度)用来度量一个概率分布或概率模型预测样本的好坏程度。它也可以用来比较两个概率分布或概率模型。(应该是比较两者在预测样本上的优劣)低困惑度的概率分布模型或概率模型能更好地预测样本。

困惑度越小,句子概率越大,语言模型越好。

2.怎么计算

官方定义 

在自然语言处理中,困惑度是用来衡量语言概率模型优劣的一个方法。一个语言概率模型可以看成是在整过句子或者文段上的概率分布。

它主要是根据每个词来估计一句话出现的概率,并用句子长度作normalize,公式为如下,PPL越小,p(wi)则越大,一句我们期望的sentence出现的概率就越高。

S代表sentence,N是句子长度,p(wi)是第i个词的概率。第一个词就是 p(w1|w0),而w0是START,表示句子的起始,是个占位符。

还有人说,Perplexity可以认为是average branch factor(平均分支系数),即预测下一个词时可以有多少种选择。别人在作报告时说模型的PPL下降到90,可以直观地理解为,在模型生成一句话时下一个词有90个合理选择,可选词数越少,我们大致认为模型越准确。这样也能解释,为什么PPL越小,模型越好。

这有一个例子,训练好的bigram语言模型的困惑度为3,也就是说,在平均情况下,该模型预测下一个单词时,有3个单词等可能的可以作为下一个单词的合理选择。

Perplexity另一种表达

针对文本中的词预测任务来说,离散概率分布p的困惑度由下式给出,其中H(p) 是该分布的熵,x遍历事件空间。概率分布的perplexity:

Perplexity的影响因素

1. 训练数据集越大,PPL会下降得更低,1billion dataset和10万dataset训练效果是很不一样的;

2. 数据中的标点会对模型的PPL产生很大影响,一个句号能让PPL波动几十,标点的预测总是不稳定;

3. 预测语句中的“的,了”等词也对PPL有很大影响,可能“我借你的书”比“我借你书”的指标值小几十,但从语义上分析有没有这些停用词并不能完全代表句子生成的好坏。

所以,语言模型评估时我们可以用perplexity大致估计训练效果,作出判断和分析,但它不是完全意义上的标准,具体问题还是要具体分析。

3.代码

核心思路:计算e为底数,幂为loss的结果。这是根据上述中的“Perplexity另一种表达”来计算困惑度。

def evaluate(model, val_dataloader, config):
    model.eval()
    total_val_loss = 0
    with torch.no_grad():
        for step, batch in enumerate(val_dataloader):
            batch[0].clone().detach().to(config.device)
            batch[1].clone().detach().to(config.device)
            loss, logits = model(batch[0], token_type_ids=None, attention_mask=(batch[0] > 0), labels=batch[1])
            if isinstance(model, torch.nn.DataParallel):
                loss = loss.mean()
            total_val_loss += loss.mean().item()
    loss = total_val_loss / len(val_dataloader)
    perplexity = math.exp(loss)
    perplexity = torch.tensor(perplexity)
    return loss, perplexity

训练语言模型时,随着loss的减少,perplexity的值也变小。一组输出:

Iter:      0,  Train Loss:   3.2, Val Loss: 1.3e+01,  Val Perp: 449381.75, Time: 0:08:01 *
Iter:     50,  Train Loss:   1.2, Val Loss:   5.0,  Val Perp: 149.5646209716797, Time: 0:16:32 *
Iter:    100,  Train Loss: 0.053, Val Loss:  0.17,  Val Perp: 1.188535451889038, Time: 0:24:59 *
Iter:    150,  Train Loss: 0.012, Val Loss: 0.044,  Val Perp: 1.0451873540878296, Time: 0:33:30 *
Iter:    200,  Train Loss: 0.00038, Val Loss: 0.00048,  Val Perp: 1.000481128692627, Time: 0:41:59 *
Iter:    250,  Train Loss: 0.00012, Val Loss: 0.00021,  Val Perp: 1.000212550163269, Time: 0:50:29 *
Iter:    300,  Train Loss: 5.8e-05, Val Loss: 0.00013,  Val Perp: 1.0001274347305298, Time: 0:58:59 *
Iter:    350,  Train Loss: 5e-05, Val Loss: 9.3e-05,  Val Perp: 1.000092625617981, Time: 1:07:28 *
Iter:    400,  Train Loss: 0.00027, Val Loss: 7.2e-05,  Val Perp: 1.0000715255737305, Time: 1:15:57 *
Iter:    450,  Train Loss: 3.6e-05, Val Loss: 5.9e-05,  Val Perp: 1.0000592470169067, Time: 1:24:26 *
Iter:    500,  Train Loss: 6.4e-05, Val Loss: 5.3e-05,  Val Perp: 1.000052809715271, Time: 1:32:54 *
Iter:    550,  Train Loss: 3.3e-05, Val Loss: 4.8e-05,  Val Perp: 1.0000483989715576, Time: 1:41:24 *

参考:

1.https://www.cnblogs.com/shona/p/10827339.html

2.https://blog.csdn.net/index20001/article/details/78884646

3.语言模型的ppl和bpc:https://blog.csdn.net/weixin_43922901/article/details/103218081

 

### 困惑作为模型性能评估指标的作用 困惑是一个衡量语言模型预测能力的关键指标。较低的困惑表明模型能够更好地预测下一个词,这意味着模型对数据的预测更为准确,表现出更高的置信[^4]。 在实际应用场景中,困惑不仅帮助研究人员理解模型的表现,还指导着模型的选择与优化过程。通过对比不同版本或类型的模型在同一测试集上的困惑得分,可以直观判断哪个模型具有更好的泛化能力和更优的语言处理效果[^1]。 ### 计算方法 困惑的具体计算依赖于条件概率分布\( P\left( w_i \mid w_1, w_2, \ldots, w_{i-1} \right) \),这代表了给定前序词语序列下某个特定词语出现的概率。对于一段长为 \( N \) 的文本,其困惑定义如下: \[ PP(W)=\sqrt[N]{\prod _{i=1}^{N}{\frac {1}{P(w_{i}\mid w_{1},w_{2},...,w_{i-1})}}} \] 为了便于理解和实现,在实践中通常采用对数形式简化上述表达式: \[ PP(W) = exp\left(-\frac{\sum_{i=1}^N log(P(w_i|w_1,...,w_{i-1}))}{N}\right)\] 这里展示了如何利用Python代码来估算一个简单n元语法(N-gram)模型的困惑分数: ```python import math def calculate_perplexity(probabilities): """ Calculate the perplexity of a language model given word probabilities. :param probabilities: List[float], list containing probability values for each token in sequence :return float, calculated perplexity value """ sum_log_prob = sum(math.log(p) if p != 0 else -float('inf') for p in probabilities) n_tokens = len(probabilities) return math.exp(-sum_log_prob / n_tokens) # Example usage with hypothetical probabilities from an N-gram model example_probs = [0.9876, 0.5432, 0.1234, ... ] # Replace ellipsis (...) with actual data points perplexity_score = calculate_perplexity(example_probs) print(f"The estimated perplexity score is approximately {perplexity_score:.2f}.") ```
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值