樱吹雪_-CSDN博客

原创因果语言模型的输出机制探讨

本文对因果语言模型的输出机制进行了深入的探讨

2025-09-05 21:11:10 1483 1

原创 Direct Preference Optimization数学知识详解

首先我们将简要介绍论文的背景，我们之前往往通过人类反馈强化学习(RLHF: reinforcement learning from human feedback)对无监督的大模型进行微调以对齐人类偏好，该方法通常分为三个阶段，有监督微调(SFT: supervised fine-tuning)，利用人类偏好生成数据集与奖励模型的建模，以及强化学习优化。而本文提出了直接偏好优化(DPO。

2024-01-13 22:51:46 1640 1

原创 torch.nn中NLLLoss与CrossEntropyLoss比较详解

本篇文章中我们将详细比较torch.nn中两个损失函数类NLLLoss与CrossEntropyLoss，首先我们将介绍负对数似然和交叉熵，其次我们再介绍在Pytorch中两个类具体的执行计算方式。

2024-01-11 12:03:12 1772 1

原创 CS224N Assignment 1: Exploring Word Vectors

本文中是笔者针对CS224N assignment1给出的个人解答。本次作业主要是初步探究词向量，词向量通常被用作下游 NLP 任务（如问题解答、文本生成、机器翻译等）的基本组成部分，本次作业中我们将探索两种类型的词向量：从共现矩阵中得出的词向量和通过 GloVe 得出的词向量。

2023-08-15 16:24:57 423 1

原创 AG_NEWS数据集文本分类实战（一）

我们使用AG_NEWS数据集实现一个简单的文本分类模型

2023-07-12 10:10:19 4943 4

刚换过电脑，今天想重新装一下pytorch的CPU版本，也遇到了诸多问题，这里分享一下本人的安装过程。首先默认大家已经安装了anaconda，打开anaconda prompt后，输入如下代码，可获得当前。安装完成后，输入python，然后输入import torch，返回下一行证明安装完成。其中enviname是新环境名称，showname是jupterbook中kernel的名称，自己定。创建虚拟环境，当然环境名称和python版本自己决定，遇到y/n都选y。然后激活并进入环境。

2023-03-10 20:39:48 3961

原创适合学习的法国网站

法国学习数学物理的网站

2022-10-10 23:30:08 258

原创 VScode的配置和使用

vscode的个人配置以及使用

2022-09-27 22:56:16 1516

m0_67146053的博客