因为11号下午才成功进群,很多东西没有充分学习,整体下来还是比较蒙圈的,简单记录一下我学习到的内容
1 文生图的历史和理论基础:
1.1 起源于科学中对拟合数据分布的需求
1.2 图像生成模型必须使用传输方程进行近似,这是与LLM模型的主要区别
1.3 如何生成模型:
1 建模先验空间Z,一般是高斯分布
2 建立传输函数(或积分核)的神经网络参数化模型
3 建立分布间距离的度量
4 寻找最优化算法求解最优化问题
#模型间的主要区别在于第二步(优化算法)和第三步(分布间度量)的选择
1.4 几种生成模型对比:
生成模型 | 分布间度量 | 优化算法 |
---|---|---|
GAN | Jansen-Shannon散度 | Min-max优化+SGD |
VAE | KL散度 | 变分法+SGD |
Normalizing Flow | 重构损失(对数似然) | SGD |
Diffusion Model | KL散度 | 变分法+SGD |
1.5 扩散模型
1.5.1 扩散模型
Motivation:从噪声生成数据困难,反过来很容易
正向过程:图片加噪,知道无法和噪声分辨
————————后面有相当一部分的学习内容不理解,我会在以后进行补充—————————
1.5.2 文生图加速
DPM—Solver Consistency Model
1.5.3 VLM+文生图
利用Vision-Language Model 为图像进行更详细的标注以提升精准性
2 baseline体验
通过对基础知识的学习,大概理解AIGC在寻找X(T)与X(0)之间的关系——传递函数。因为通过噪声去复原信息远比通过信息生成噪声要复杂,所以可以通过已有信息去生成噪声,得到信息与对应噪声的情况,进而利用QKV注意力机制去寻求二者间的函数关系,并用其反函数来使用噪声生成信息(目前是这样理解的,不太清楚对不对)
baseline整体还是很顺利的,baseline代码分块也十分详细,很方便学习。进群太晚,学习时间太少,很多不清楚的点没来得及查清楚,笔记实在单薄