AIGC-task1 baseline 笔记和体验 #Datawhale AI夏令营

因为11号下午才成功进群,很多东西没有充分学习,整体下来还是比较蒙圈的,简单记录一下我学习到的内容

1 文生图的历史和理论基础:

1.1 起源于科学中对拟合数据分布的需求

1.2 图像生成模型必须使用传输方程进行近似,这是与LLM模型的主要区别

1.3 如何生成模型:

    1 建模先验空间Z,一般是高斯分布

    2 建立传输函数(或积分核)的神经网络参数化模型

    3 建立分布间距离的度量

    4 寻找最优化算法求解最优化问题

    #模型间的主要区别在于第二步(优化算法)和第三步(分布间度量)的选择

1.4 几种生成模型对比:

几种生成模型对比
生成模型分布间度量优化算法
GANJansen-Shannon散度Min-max优化+SGD
VAEKL散度变分法+SGD
Normalizing Flow重构损失(对数似然)SGD
Diffusion ModelKL散度变分法+SGD

1.5 扩散模型

1.5.1 扩散模型

    Motivation:从噪声生成数据困难,反过来很容易

    正向过程:图片加噪,知道无法和噪声分辨

————————后面有相当一部分的学习内容不理解,我会在以后进行补充—————————

1.5.2 文生图加速

    DPM—Solver         Consistency Model

1.5.3 VLM+文生图

    利用Vision-Language Model 为图像进行更详细的标注以提升精准性

2 baseline体验

通过对基础知识的学习,大概理解AIGC在寻找X(T)与X(0)之间的关系——传递函数。因为通过噪声去复原信息远比通过信息生成噪声要复杂,所以可以通过已有信息去生成噪声,得到信息与对应噪声的情况,进而利用QKV注意力机制去寻求二者间的函数关系,并用其反函数来使用噪声生成信息(目前是这样理解的,不太清楚对不对)

baseline整体还是很顺利的,baseline代码分块也十分详细,很方便学习。进群太晚,学习时间太少,很多不清楚的点没来得及查清楚,笔记实在单薄

  • 7
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值