简单来说,语言模型越好,困惑度越小
一、理解
困惑度p可以理解为,如果每个时间步都根据语言模型计算的概率分布随机挑词,那么平均情况下,挑多少个词才能挑到正确的那个
二、影响因素
-
训练数据集越大,PPL会下降得更低,dataset大和小,训练效果是很不一样的;
-
数据中的标点会对模型的PPL产生很大影响,一个句号能让PPL波动几十,标点的预测总是不稳定。所以清洗数据很重要。;
-
预测语句中的“的,了”等词也对PPL有很大影响,可能“我借你的书”比“我借你书”的指标值小几十,但从语义上分析有没有这些停用词并不能完全代表句子生成的好坏。
三、原理
https://www.zhihu.com/question/58482430