- 博客(3)
- 收藏
- 关注
原创 LoRA微调原理
首先给出微调的定义,即在尽量不改变推理速度的前提下,使用少量数据就能使预训练大模型达到原始推理精度的90%以上,来实现各种下游任务的应用。也就是说,在进行大量推理阶段时,网络结构是不允许被修改的,这就是。确定一个数据集的本征维度一般使用主成成分分析(PCA),独立成分分析(ICA),多维缩放(MDS)等。本征维度低的模型,训练出来的模型准确率是更高的。预训练模型的表征能力越强(训练得越好),本征维度越小。这里B设置为0的原因:优化的开始阶段保证分支参数为0。模型越大本征维度越小,即越强的模型本征维度越低。
2023-08-25 12:30:00 871
原创 扩散模型的一些概念(2)
DDPM训练能够使得模型学习到更多的细节(step>=1000),但是在采样的过程中,生成一个高质量的图片DDPM模式则需要迭代计算上千次。DDIM恰好解决了这一问题,也就是说,将赋予噪声的过程变为非马尔科夫链的形式,这样在逆向去噪的过程时可以一步跳跃几十个step去迭代,以牺牲少量精度的换取几十倍推理速度的提升。中,他更多的是保证原图的分布尽量不会被忽略,因为本身扩散模型的不确定性极高,生成的结果大多都不可控,很多时候研究人员使用其他的约束条件限制。(1)LDM的损失函数是如何发挥作用的?
2023-08-24 09:27:36 78
原创 扩散模型的一些相关概念
主要的原因是编码器输出的是一个有着特定均值和方差的正态分布,但是编码器由于其以高纬度表示低纬度特征的特点,所以输出的是一个分布的参数,因为这些参数原本在网络中的定位是被学习的参数,所以他无法被求取梯度。它以逐步逆向的方式,从初始数据开始,通过一系列微小的步骤逐渐转化为目标数据。需要注意,训练使用的是DDPM,而采样使用的是DDIM:训练过程必须要注重每个细节,所以step设置的会大一些。DDPM:DDPM通过扩散过程建模数据的生成,注重数据的多尺度结构,可以用于生成具有多样性和逼真度的数据样本。
2023-08-24 09:25:40 115
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人