论文浅尝 | Language Models (Mostly) Know What They Know

1db5b4cced4602a1bdaa5af05ed26488.png

笔记整理:程思源、梁孝转,浙江大学在读硕士,研究方向为知识图谱的表示学习,自然语言处理,预训练

对于一个语言模型,我们最终希望得到一个“诚实”的人工智能系统,即语言模型需要准确并且忠实地评估它们对于自己的知识和推理的置信水平。AI模型进行自我评估(self-evaluation),首先需要让语言AI在回答问题的时候校准(Calibration)自己的答案。校准就是让后验概率和经验概率相匹配,这样就可以对模型给出的概率误判风险有一个直接的判断。比如模型给出一个预测说这个样本出现的概率为0.3,那也就是说在100个样本中约有30个样例,如果模型预测出来的概率与现实发生频率相一致,那这个模型就是已经校准好的模型。

为了验证AI语言系统能否对自己的答案进行校准,作者设计了三个主要的问题形式:

1、多项选择问题

93f69f8a23dba707695c85619a5d7659.png

2、将多项选择题中的最后一个选项替换为”None of the above”

3027e0a64324d5d26ea7f0dc895baa75.png

3、True/False问答

550662500f06df3c6e49673790b71c06.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值