- 博客(7)
- 收藏
- 关注
原创 Direct Preference Optimization数学知识详解
首先我们将简要介绍论文的背景,我们之前往往通过人类反馈强化学习(RLHF: reinforcement learning from human feedback)对无监督的大模型进行微调以对齐人类偏好,该方法通常分为三个阶段,有监督微调(SFT: supervised fine-tuning),利用人类偏好生成数据集与奖励模型的建模,以及强化学习优化。而本文提出了直接偏好优化(DPO。
2024-01-13 22:51:46 1239 1
原创 torch.nn中NLLLoss与CrossEntropyLoss比较详解
本篇文章中我们将详细比较torch.nn中两个损失函数类NLLLoss与CrossEntropyLoss,首先我们将介绍负对数似然和交叉熵,其次我们再介绍在Pytorch中两个类具体的执行计算方式。
2024-01-11 12:03:12 1451 1
原创 CS224N Assignment 1: Exploring Word Vectors
本文中是笔者针对CS224N assignment1给出的个人解答。本次作业主要是初步探究词向量,词向量通常被用作下游 NLP 任务(如问题解答、文本生成、机器翻译等)的基本组成部分,本次作业中我们将探索两种类型的词向量:从共现矩阵中得出的词向量和通过 GloVe 得出的词向量。
2023-08-15 16:24:57 219 1
原创 Pytorch CPU版本安装教程
刚换过电脑,今天想重新装一下pytorch的CPU版本,也遇到了诸多问题,这里分享一下本人的安装过程。首先默认大家已经安装了anaconda,打开anaconda prompt后,输入如下代码,可获得当前。安装完成后 ,输入python,然后输入import torch,返回下一行证明安装完成。其中enviname是新环境名称,showname是jupterbook中kernel的名称,自己定。创建虚拟环境,当然环境名称和python版本自己决定,遇到y/n都选y。然后激活并进入环境。
2023-03-10 20:39:48 3590
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人