AIGC-task1 baseline 笔记和体验 #Datawhale AI夏令营

最新推荐文章于 2024-08-14 22:29:49 发布

AS_Ming

最新推荐文章于 2024-08-14 22:29:49 发布

阅读量277

点赞数 7

文章标签：人工智能 AIGC 笔记

本文链接：https://blog.csdn.net/AS_Ming/article/details/141113361

版权

因为11号下午才成功进群，很多东西没有充分学习，整体下来还是比较蒙圈的，简单记录一下我学习到的内容

1 文生图的历史和理论基础：

1.1 起源于科学中对拟合数据分布的需求

1.2 图像生成模型必须使用传输方程进行近似，这是与LLM模型的主要区别

1.3 如何生成模型：

1 建模先验空间Z，一般是高斯分布

2 建立传输函数（或积分核）的神经网络参数化模型

3 建立分布间距离的度量

4 寻找最优化算法求解最优化问题

#模型间的主要区别在于第二步（优化算法）和第三步（分布间度量）的选择

1.4 几种生成模型对比：

几种生成模型对比
生成模型	分布间度量	优化算法
GAN	Jansen-Shannon散度	Min-max优化+SGD
VAE	KL散度	变分法+SGD
Normalizing Flow	重构损失（对数似然）	SGD
Diffusion Model	KL散度	变分法+SGD

1.5 扩散模型

1.5.1 扩散模型

Motivation：从噪声生成数据困难，反过来很容易

正向过程：图片加噪，知道无法和噪声分辨

————————后面有相当一部分的学习内容不理解，我会在以后进行补充—————————

1.5.2 文生图加速

DPM—Solver Consistency Model

1.5.3 VLM+文生图

利用Vision-Language Model 为图像进行更详细的标注以提升精准性

2 baseline体验

通过对基础知识的学习，大概理解AIGC在寻找X(T)与X(0)之间的关系——传递函数。因为通过噪声去复原信息远比通过信息生成噪声要复杂，所以可以通过已有信息去生成噪声，得到信息与对应噪声的情况，进而利用QKV注意力机制去寻求二者间的函数关系，并用其反函数来使用噪声生成信息（目前是这样理解的，不太清楚对不对）

baseline整体还是很顺利的，baseline代码分块也十分详细，很方便学习。进群太晚，学习时间太少，很多不清楚的点没来得及查清楚，笔记实在单薄

AS_Ming

关注

7
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
AIGC-task1 baseline 笔记和体验 #Datawhale AI夏令营

通过对基础知识的学习，大概理解AIGC在寻找X(T)与X(0)之间的关系——传递函数。因为通过噪声去复原信息远比通过信息生成噪声要复杂，所以可以通过已有信息去生成噪声，得到信息与对应噪声的情况，进而利用QKV注意力机制去寻求二者间的函数关系，并用其反函数来使用噪声生成信息（目前是这样理解的，不太清楚对不对）因为11号下午才成功进群，很多东西没有充分学习，整体下来还是比较蒙圈的，简单记录一下我学习到的内容。————————后面有相当一部分的学习内容不理解，我会在以后进行补充—————————
复制链接

扫一扫