PLMs-electra

前沿: electra训练模型,可以说是训练框架和预训练任务的一个改良吧。

首先整体框架是这样的。
在这里插入图片描述

  1. 原先MLM是通过对[mask]位置直接进行预测,然后给出损失,也就是交叉熵的计算。

  2. 然而electra不是,生成器会首先对[mask]位置的部分进行预测,也就是一个MLM任务(可以理解为是对简单的位置先进行预测,然后将难的部分交给了判别器),然后对预测结果,进行判别器预测。

  3. 此时判别器预测值只有2类,也就是是否是原文中出现过,成功将原先MLM任务转化成为了两个任务,而且。这里面判别器计算需要考虑所有的单词,然而原先的MLM任务实际考虑的只有那15%的单词。甚至还不一定有。。。

  4. 并且需要注意electra的生成器和判别器的梯度并不会由一个模型传给另一个模型,而是考虑进行多任务联合训练的方式进行

`stable-diffusion` 是一个用于图像生成和插值的开源库,其中的 `plms.py` 模块实现了一个基于 Langevin 动力学的概率级联模型(Probabilistic Level-set Model,简称 PLMS)。 PLMS 是一种基于分段函数的生成模型,其核心思想是将生成图像的像素值划分为多个级别,并对每个级别分别建立一个 Langevin 动力学系统来模拟其生成过程。在训练过程中,PLMS 通过最小化生成图像的负对数似然来调整每个级别的分段函数和 Langevin 系统的参数,从而使得生成图像的分布与真实数据的分布尽可能接近。 在 `plms.py` 中,PLMS 的实现主要包括以下几个部分: 1. 分段函数的定义:PLMS 将像素值划分为多个级别,并对每个级别定义一个分段函数,用于计算该级别内像素的概率密度。 2. Langevin 系统的定义:PLMS 对每个级别的分段函数建立一个 Langevin 系统,用于模拟该级别内像素的生成过程。Langevin 系统的参数包括噪声强度、扩散系数和漂移力。 3. Langevin 动力学的模拟:PLMS 使用 Euler-Maruyama 方法对 Langevin 系统进行数值模拟,从而生成新的图像样本。 4. 训练过程的实现:PLMS 通过最小化生成图像的负对数似然来调整分段函数和 Langevin 系统的参数。训练过程采用随机梯度下降算法,每次迭代使用一个小批量的图像样本进行计算。 总的来说,`stable-diffusion` 中的 `plms.py` 实现了一个基于分段函数和 Langevin 动力学的生成模型,可以用于图像生成和插值任务。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值