自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(121)
  • 收藏
  • 关注

原创 强化学习笔记之策略梯度

从分类任务的cross entropy出发,其本质也相当于最大化给定当前观测的状态(特征),输出相应的标签,即采取正确的动作的几率。模型采样出特定轨迹的概率等于出现状态1的概率与模型在s1的前提下采取动作1的概率再乘环境在此动作下从s1转换为s2的概率...根据引论中的梯度推导,优化的目标相当于在平常的分类任务中加了一个奖励作为权重,从s1开始,不断从策略模型中采样,得到所有动作的奖励,计算奖励的期望值。要做对奖励的期望的梯度上升,使得模型的参数向使得奖励高的方向改变。

2025-06-12 14:41:06 21

原创 有sudo权限下/无sudo权限下:切换gcc、g++版本

之后需要在临时设置环境变量,或者加入到.bashrc中再source一下。

2025-06-02 20:38:26 202

原创 多个服务器共享存储服务器时激活命令和改变启动脚本

【代码】多个服务器共享存储服务器时激活命令和改变启动脚本。

2025-05-23 21:18:35 99

原创 建立对应cuda版本的编译环境命令整合

一些其他的注意事项,如直接安装编译好的.whl文件时,编译这个文件的环境中的一些依赖会自动被安装,无法跳过,很烦:如在安装这种vllm-0.8.5.post1+cu118-cp38-abi3-manylinux1_x86_64.whl时,其规定的flash-attn会被自动地安装。装vllm、xformers、flash-atten时不能改变系统的cuda驱动,基本只能安装一个简易版的conda环境,里面安装一些conda提供的编译工具和cuda的工具包。添加对应cuda的channel。

2025-05-19 17:01:29 156

原创 安装deepspeed时出现了以下的错误,如何解决CUDA_HOME does not exist

安装deepspeed时,主服务器装机时没有装cuda的编译器等一系列工具,导致pip时无法编译deepspeed包以及一系列依赖。很简单,nvidia-smi查看cuda版本号,使用conda install安装一个cuda-toolkit即可解决。之后,可以正常pip deepspeed。

2025-04-29 20:42:34 407

原创 论文解读之DAPO: An Open-Source LLM Reinforcement Learning System at Scale

DAPO在公开的数学数据集上做对于GRPO算法加入了一些改进,以很少的训练步数达到了R1蒸馏的qwen32B的性能:对GRPO加入以下改进,以解决GRPO实际中的熵崩溃、奖励噪声和训练不稳定性:1.将GRPO中的裁剪上限提高,鼓励模型探索(当上线过低时,模型出现较大的采样比时不会梯度反传)2.动态采样3.token级别的策略梯度损失4.过长奖励惩罚用verl框架进行了该训练方法的实现。

2025-04-14 20:37:46 289

原创 论文解读之onerec

目前,大多数的推荐系统还是由级联的排序策略组成,即召回、粗排、生成式推荐以自回归的方式直接生成物品的语义idtransformer架构模型做生成式检索或推荐,主流还是基于encoder-decoder架构的模型,onerec是一个做生成式推荐的模型,以query或者用户特征、行为序列为输入,是做检索或者推荐的区别所在。其核心如下:(1)架构为encoder-decoder,以用户历史行为序列为输入,逐渐解码为可能感兴趣的推荐视频,采用稀疏MOE的架构,在一定的资源限制下方便扩展模型能力。

2025-04-14 17:40:50 545

原创 论文解读之Deepseek V3

1.从专业模型的推理模型(R1)蒸馏数据比从短CoT中训练的V2.5效果更好2.自反馈可以提升表现3.多token预测可加快解码速度。

2025-03-04 10:03:53 728

原创 力扣hot 100之矩阵四题解法总结

以四个状态标记当前移动的四个方向,当前移动的界限由其后一个方向已经转的圈数来界定,注意到状态3的前一个圈数为状态0,所以在状态2完成时要及时更新界限,否则状态3的界限会因晚更新而出错。原地标记,用第一行和第一列作为当前行列是否为0的标记,同时用两个标签分别记录0行、0列的标记空间中原本是否有0。matrix[i][j](原索引位置)​→matrix[j][n−1−i](旋转后索引位置)本期总结hot100 中二维矩阵的题,时空复杂度就不分析了。对于这种数组,右上角元素的特点:在单行中最大,在单列中最小。

2025-03-02 20:49:14 410

原创 强化学习笔记之引论

以上对奖励的梯度上升很直觉,即根据奖励的正负,决定对当前状态采取当前行动的一个方向,奖励为正,向该行动概率增加的方向优化参数;模型参数为前提的条件概率为,初始状态的概率*根据状态和参数采取行动1的概率*根据行动、状态1转换成状态2,奖励值1的概率...强化学习过程中奖励是一个偏好模型或者基于规则的奖励,跟模型参数无关;设置基线的策略:critic,评论家,以计算优势函数,评判actor的动作好的程度,也就是PPO算法中的价值模型。同时,乘的又是整个轨迹发生的reward,即最终的奖励。

2025-02-19 00:24:42 290

原创 论文解读之DeepSeek R1

deepseek主打复杂推理任务,如数学、代码任务。R1以预训练过的V1-base初始化,主要发挥了RL在长思维链上的优势,R1-Zero直接RL而在前置步骤中不进行SFT,即缺少了有监督的指令微调阶段,探索了思维链解决复杂问题的能力,使得R1-Zero表现出自我验证、反思、产生长思维链的能力;同时用较大的模型的复杂推理能力来蒸馏,以提升llama和qwen的推理能力。R1在数学、代码等benchmark上表现出色,一些数据集上超过O1。

2025-02-17 00:04:31 728

原创 论文解读之GPT1:Improving Language Understanding by Generative Pre-Training

GPT系列的特点是自监督大规模训练后在具体任务上进行有监督微调,事实证明这种方式可以有效利用大规模的无标签语料以提升模型对于自然语言的理解力,即使其调整参数以记忆足够多知识的模型。

2025-02-15 12:54:56 564

原创 论文解读之T5——Exploring the Limits of Transfer Learning with a UnifiedText-to-Text Transformer

T5是基于Encoder-Decoder结构的Transformer的模型,对经典的Transformer做了三个带动。其核心将NLP任务看作一个序列到序列的统一框架,做大规模的预训练,主打通用。最大将模型做到11B,基本上是Encoder-Decoder模型能够承受其训练成本的最大化,后文会引用另一位博主的分析为什么这种架构很难做得更大(区别于Decoder-only)区分任务的方式在于将输入的开头加入任务的描述,比如翻译、总结:2020年年初投稿。

2025-02-06 11:23:58 429

转载 力扣hot100之# Definition for singly-linked list.# class ListNode:# def __init__(self, val=0, next

链接:https://leetcode.cn/problems/merge-k-sorted-lists/solutions/2384305/liang-chong-fang-fa-zui-xiao-dui-fen-zhi-zbzx/建堆,因为堆适用于每次取出最大或最小,且插入元素的时间复杂度是O(logk),k为堆中元素个数。3.一次循环完,角标和最小值均被更新过,则说明还有这一轮还有节点;而每次需要插入的节点为每个链链首中最小的,下一个的道理等同。2.有节点则更新角标和最小值。

2025-01-20 23:34:30 46

原创 力扣hot100之螺旋矩阵

这种解法和大佬的方法二思路一致,其方法一则将当前状态以及该状态下对当前坐标的动作融合起来了,可以参考:https://leetcode.cn/problems/spiral-matrix/solutions/2966229/liang-chong-fang-fa-jian-ji-gao-xiao-pyt-4wzk。2.当前状态的结束状态依赖于下一个状态的完全执行次数。3.用遍历的元素数量作为退出循环的临界。1.用4个状态标记遍历的走向。

2025-01-19 23:35:22 341

原创 hot100之两数之和

1.字典,使用hash缩短查找target-num的速度,时间、空间复杂度均为O(n)2.先排序再滑动窗口,时间复杂度为O(nlogn)、空间复杂度为O(n)总结leetcodehot100系列开始,用python刷。

2025-01-19 17:36:46 223

原创 论文解读之QWEN

初代QWEN的几个模型的版本,以及大致训练方式。

2025-01-17 15:27:34 1285

原创 论文解读之Direct Preference Optimization:Your Language Model is Secretly a Reward Model

因为大语言模型基于无监督的训练方式, 控制模型的输出行为是很困难的,。需要控制模型向人类偏好的高质量的知识、合理的输出习惯、输出行为进行改善,这就涉及到偏好学习算法。此前的方法比如PPO(近端策略优化)是在人类对于模型的输出数据集进行打分后制作的偏好数据集上训练一个奖励模型,再使用这个奖励模型使用策略优化算法进行强化学习来使得模型来对齐人类的偏好。但是,以上的强化学习范式具有一些问题:过于复杂,包括:训练多个模型、在训练过程中对策略模型采样训练不稳定。

2025-01-14 10:50:37 1145

原创 统计模型Bradley-Terry 模型

Bradley-Terry 模型假设每个对象 i 都有一个潜在的“能力”或“偏好”参数 θi,这种能力决定了对象在成对比较中的胜率。通过这些参数,模型计算任意两个对象在比较或竞争中的胜负概率。

2025-01-13 14:22:43 691

原创 训练策略之Teacher Forcing

Teacher Forcing 是一种训练技术,涉及在模型生成序列的过程中,使用真实的目标输出(ground truth)而不是模型的预测输出来作为下一个时间步的输入。

2025-01-07 16:37:06 496 2

原创 论文解读之Continual Learning for Generative Retrieval over Dynamic Corpora

针对的任务:生成式检索:主要做的事情是使用参数模型,根据相关文档来预测他们的标识符(docid)。此任务尚且存在的问题:目前,针对此类任务的方法都是基于静态的文档集合的。在很多实际场景中,文档集合是动态的,新的文档被持续地添加进文档库。因此,在应用生成式检索时,需要具备增加新索引的同时具备保留回答检索的能力。(重新训练的话耗费太大)本篇解决上述问题,对生成式检索主要做出了两大贡献:1.提出增加乘积量化根据两种阈值以将新的文档以很低的代价编码成文档id。

2025-01-07 15:10:33 633

原创 论文解读之learning to summarize with human feedback

部分生成任务需要对齐人类偏好,但是根据最大化可能性(对数似然)进行微调的模型跟真正使用模型的人的喜好并不能直接匹配,即不对齐。这种不对齐的原因有:(1)最大化可能性目标对于重要和不重要的错误判别的差距不大。(2)模型会对人类的训练数据放置更大的可能性,其中包括低质量的训练数据。(3)采样时的分布偏移可能会降低表现。尽管第三点能够通过不均匀采样策略改善,比如束搜索,但是可能造成重复和不想要的捏造。本论文的团队基于GPT3和人类反馈强化学习进行了完整的偏好对齐的流程。

2025-01-03 20:09:03 628

原创 论文解读之Generative Dense Retrieval: Memory Can Be a Burden

生成式检索根据给定的查询,自回归地检索相关的文档标识符,在小规模的文档库中表现不错,通过使用模型参数记忆文档库,生成式检索实现了查询和文档之间的深层次交互。但是,这种记忆机制存在一些问题:1.对文档的细粒度特征记忆准确性不足2.当文档库规模变大时,记忆混淆情况加重3.新文档加入时记忆力更新的耗费很大,因为当新的文档到来时,文档聚簇树需要被更新,模型也需要被再次训练来记住所有的文档。本论文中,作者提出生成式稠密检索范式,从粗到细粒度的匹配路径上,利用稠密检索和生成式检索两种方式进行优劣互补。

2025-01-03 17:07:35 1012

原创 论文解读之Transformer Memory as a Differentiable Search Index

信息检索系统将query映射为整型或者字符串形式的document identifiers(docid),通常分为检索和排序两步。本文介绍将信息检索融入Transformer的参数中的开篇之作——DSI,提出了一种新的序列到序列的学习系统架构范式直接将query映射为整型或者字符串形式的document identifiers(docid)

2025-01-02 13:23:20 618

原创 论文解读之Chain-of-Thought Prompting Elicits Reasoning in Large Language Models(CoT)

CoT的核心在于在prompt中使得模型将较大的问题输入拆解逐步的思维链的输出方案,属于prompt中的技巧,可以提升LLM在复杂问题上的表现,并且能够增强其可解释性(指的是在输出错误时追溯哪一步解答方案出错)。

2024-12-20 10:54:11 630

原创 论文解读之SDXL: Improving Latent Diffusion Models forHigh-Resolution Image Synthesis

SDXL是SD的改进版本,采用了三倍更大的Unet主干网络(其增大的参数主要由于更多的注意力块和使用第二个文本编码器带来的更大的交叉注意力机制的内容)设计了多个新的限制方案,并且在多个比例上进行了训练。引进了一个完善模型——用来改善采样结果的真实性。

2024-11-10 21:01:35 515

原创 论文解读之mask2former

这是一个能够执行三大分割通用任务(语义、实例、全景)的网络第一次在三大任务上胜过每个任务的专用分割SOTA模型。

2024-11-08 15:29:57 2366

原创 Python深浅拷贝及实现

在Python中,深浅拷贝是数据复制的两种方式。浅拷贝复制的是对象的引用,深拷贝则完全复制对象的值。print(shallow_copy) # 输出: [1, 2, ['changed', 4]]print(deep_copy) # 输出: [1, 2, [3, 4]]浅拷贝只复制对象的引用,而深拷贝复制了整个对象及其嵌套对象。

2024-11-07 13:05:01 277

转载 自然常数e的来源和为什么选择e作为交叉熵损失函数的底数

‌:在信息论中,信息量的定义通常使用自然对数。自然对数的底数e是一个重要的数学常数,约等于2.71828。使用自然对数可以更好地反映信息的本质,因为自然对数在信息论中有其独特的性质和优势‌12。‌。

2024-11-07 11:09:56 192

原创 重装linux系统(ubuntu)后使用Mount挂载原数据盘过程

第二,使用sudo fdisk -l。如mkdir /data_sda。第三,使用mount命令挂载,如。将sda挂载在data_sda下。查看未挂载的数据盘信息。

2024-11-05 13:33:39 233

转载 DDPM的Diffusion过程的代码实现

return x_t转自加噪过程的代码实现。

2024-11-03 17:17:42 55

原创 论文解读之Image2image-turbo

image2image-turbo作为一个使用CycleGAN形式进行训练的图生图Diffusion的网络,主要解决了两方面条件扩散模型的显存局限性:1.由于迭代去噪过程而很慢的推理速度2.依赖成对数据的模型微调。

2024-11-01 11:08:20 426

原创 论文解读之High-Resolution Image Synthesis with Latent Diffusion Models(Stable Diffusion)

本文是Stable Diffusion等一系列扩散模型的里程碑,主要解决的问题是Diffusion模型在原始的像素空间中需要的计算资源过多的问题。

2024-10-29 20:43:06 1070

原创 huggingface设置国内镜像源以及登陆之后下载模型示例

有一些较大的模型权重直接去官网下很不方便,所以找了一下设置国内镜像源并设置token登陆的方法。一般开开权限的库可以随便下载,没开开的先去库里面填个表申请,一般提交以后秒获得库的权限。后面是下载的地址,好处是这种方式可以在断掉之后用缓存接着下载。前面是设置国内镜像源,否则可能出现网络问题。1.去官网设置自己账号的token。具体在这里添加,将所有权限都开开。

2024-10-27 21:52:58 3766

原创 libavdevice.so.58: cannot open shared object file: No such file ordirectory踩坑

二、ImportError: /lib/x86_64-linux-gnu/libgobject-2.0.so.0: undefined symbol: ffi_type_uint32, version LIBFFI_BASE_7.0。产生原因,各种包集成,然后安装以后乱七八糟,甚至官方的教程也不规范导致没有添加路径到系统文件导致系统执行的时候找不到。问题一、linux编译后,找不到ffmpeg中的一个文件。博主进行的离线安装,分别下载yums\ffmpeg。博主是将大图切分成小图时遇到。

2024-10-25 19:47:28 1015

原创 Docker加载并运行别人的容器的同时挂在本地其他文件

正确示范:sudo docker run -it --name hunyuandit12new --gpus all --init --net=host --uts=host --ipc=host --security-opt=seccomp=unconfined --ulimit=stack=67108864 --ulimit=memlock=-1 -v /home/xuyimeng_aixym:/workspace mirrors.tencent.com/neowywang/hunyua。

2024-10-24 21:04:34 623

原创 ImportError: cannot import name ‘cached_download‘ from ‘huggingface_hub‘踩坑记

追溯以上的包的调用信息,挨个将diffusers、huggingface卸载然后升级最新版。一般遇到这种导入模块没有,或者是检查某一个文件中的哪些配置不正确。

2024-10-18 22:22:44 8168 8

原创 较新(24.3)加速Diffusion模型推理的方法,附带参考文献

2.将原来的扩散模型作为教师,蒸馏到更快的少步学生网络。3.一些采用一致性模型训练。4.改用GAN做生成。

2024-10-18 20:02:05 670

原创 Variational Auto-Encoder(VAE)缺少数学推导未完结版

VAE(变量自编码器)最早在以上两篇文章被提出。VAE与自编码器类似包括从原始的数据将其编码到潜在空间(隐藏表示空间,维度更低)中的变量z、以及将变量z还原到原来的空间x的解码器,不同的是,它是对分布的均值和标准差进行估计。

2024-10-13 21:10:33 359

原创 无神论文解读之ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models

ControlNet是一种能够控制模型生成内容的方法,能够对文生图等模型添加限制信息(边缘、深度图、法向量图、姿势点图等),在当今生成比较火的时代很流行。这种方法使得能够直接提供空间信息控制图片以更细粒度地得到想要的生成图片,这种方法能够以一个端到端的方式来实现这个挑战。先看看其主要方法,将原先的预训练网络冻结,然后做一个可训练的复制,再使用0初始化的1*1卷积( 保证开始训练时没有额外噪声加入进来)将这个复制的网络连成一个支路。

2024-10-05 12:41:54 674

山东大学(威海)90分+《深度学习》课程期末考试考纲核心问题之上

《深度学习》考纲以及问题总结,业界良心,几乎不收费,结课成绩90+,觉得满意的客官给个一键三连哦。

2023-09-01

测试开发行业面经(word总结版,主页可见百度测开实习岗位面经)

测开面经,精心总结含有少量答案,欢迎有更完善知识体系的小伙伴进行总结和完善。 适合测开领域的初中级程序猿们进行食用。

2023-08-18

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除