自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 LoRA微调原理

首先给出微调的定义,即在尽量不改变推理速度的前提下,使用少量数据就能使预训练大模型达到原始推理精度的90%以上,来实现各种下游任务的应用。也就是说,在进行大量推理阶段时,网络结构是不允许被修改的,这就是。确定一个数据集的本征维度一般使用主成成分分析(PCA),独立成分分析(ICA),多维缩放(MDS)等。本征维度低的模型,训练出来的模型准确率是更高的。预训练模型的表征能力越强(训练得越好),本征维度越小。这里B设置为0的原因:优化的开始阶段保证分支参数为0。模型越大本征维度越小,即越强的模型本征维度越低。

2023-08-25 12:30:00 871

原创 扩散模型的一些概念(2)

DDPM训练能够使得模型学习到更多的细节(step>=1000),但是在采样的过程中,生成一个高质量的图片DDPM模式则需要迭代计算上千次。DDIM恰好解决了这一问题,也就是说,将赋予噪声的过程变为非马尔科夫链的形式,这样在逆向去噪的过程时可以一步跳跃几十个step去迭代,以牺牲少量精度的换取几十倍推理速度的提升。中,他更多的是保证原图的分布尽量不会被忽略,因为本身扩散模型的不确定性极高,生成的结果大多都不可控,很多时候研究人员使用其他的约束条件限制。(1)LDM的损失函数是如何发挥作用的?

2023-08-24 09:27:36 78

原创 扩散模型的一些相关概念

主要的原因是编码器输出的是一个有着特定均值和方差的正态分布,但是编码器由于其以高纬度表示低纬度特征的特点,所以输出的是一个分布的参数,因为这些参数原本在网络中的定位是被学习的参数,所以他无法被求取梯度。它以逐步逆向的方式,从初始数据开始,通过一系列微小的步骤逐渐转化为目标数据。需要注意,训练使用的是DDPM,而采样使用的是DDIM:训练过程必须要注重每个细节,所以step设置的会大一些。DDPM:DDPM通过扩散过程建模数据的生成,注重数据的多尺度结构,可以用于生成具有多样性和逼真度的数据样本。

2023-08-24 09:25:40 115

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除