Direct Preference Optimization数学知识详解 首先我们将简要介绍论文的背景,我们之前往往通过人类反馈强化学习(RLHF: reinforcement learning from human feedback)对无监督的大模型进行微调以对齐人类偏好,该方法通常分为三个阶段,有监督微调(SFT: supervised fine-tuning),利用人类偏好生成数据集与奖励模型的建模,以及强化学习优化。而本文提出了直接偏好优化(DPO。
torch.nn中NLLLoss与CrossEntropyLoss比较详解 本篇文章中我们将详细比较torch.nn中两个损失函数类NLLLoss与CrossEntropyLoss,首先我们将介绍负对数似然和交叉熵,其次我们再介绍在Pytorch中两个类具体的执行计算方式。
CS224N Assignment 1: Exploring Word Vectors 本文中是笔者针对CS224N assignment1给出的个人解答。本次作业主要是初步探究词向量,词向量通常被用作下游 NLP 任务(如问题解答、文本生成、机器翻译等)的基本组成部分,本次作业中我们将探索两种类型的词向量:从共现矩阵中得出的词向量和通过 GloVe 得出的词向量。
Pytorch CPU版本安装教程 刚换过电脑,今天想重新装一下pytorch的CPU版本,也遇到了诸多问题,这里分享一下本人的安装过程。首先默认大家已经安装了anaconda,打开anaconda prompt后,输入如下代码,可获得当前。安装完成后 ,输入python,然后输入import torch,返回下一行证明安装完成。其中enviname是新环境名称,showname是jupterbook中kernel的名称,自己定。创建虚拟环境,当然环境名称和python版本自己决定,遇到y/n都选y。然后激活并进入环境。