go with me-CSDN博客

原创 WebGPT

因此，作者认为随着模型的能力增强，即使在训练时，给予它们访问网络的安全责任的证明也应该增加。因此，作者认为随着模型的能力增强，即使在训练时，给予它们访问网络的安全责任的证明也应该增加。拒绝采样，对BC / RL模型生成的结果进行采样，并对采样后的结果通过RM选取回报值最大的结果作为最终结果。奖励模型主要是从行为克隆和拒绝采样中收集的数据上进行训练，这可能对拒绝采样的过度优化鲁棒性强于强化学习。环境是不可预测的：通过拒绝采样，模型能够查看更多的网站，并且评估它发现的信息。

2023-03-24 14:07:31 2794

原创 Retrieval

讲解了信息检索在历史上关键的发展节点和历史，以及当下基于深度学习的信息检索的最新技术的讨论

2023-03-24 14:06:36 404

原创 Perplexity

PPL(Perplexity) 是用在自然语言处理领域（NLP）中，衡量语言模型好坏的指标。它主要是根据每个词来估计一句话出现的概率，并用句子长度作normalize。

2023-01-10 10:03:06 4410 1

原创 Rouge

Rouge全称为Recall-Oriented Understudy for Gisting Evaluation，是在机器翻译、自动摘要、问答生成等领域常见的评估指标。它通过将自动生成的摘要或翻译与一组参考摘要（通常是人工生成的）进行比较，统计二者之间重叠的基本单元(n元语法、词序列和词对)的数目，来评价摘要的质量得出相应的分值，以衡量自动生成的摘要或翻译与参考摘要之间的相似度。

2022-12-18 14:00:23 790

原创 BLEU：一种应用于机器翻译的Metric

该文章着重介绍了BLEU的背景和理论知识，剖析了BLEU的数学公式，以及对于关键代码部分做出了解释

2022-12-03 13:48:38 945

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人