- 博客(4)
- 收藏
- 关注
原创 DDIM详解
DDPM根据xt-1求xt---->p(xt|xt-1),意味着是求相邻两步之间的关系,这样太慢了。DDIM去掉p(xt|xt-1)这个条件,因此可是实现跳步采样,即p(xs|sk, x0),这样就实现了加速采样。可以理解为,DDMP去掉约束p(xt|xt-1)就可以推出DDIM,而DDIM加一个约束p(xt|xt-1)就可以推出DDPM。给定p(xt|x0)和p(xt-1|x0),不能用p(xt|xt-1),要推导q(xt-1|xt,x0)。这就是DDIM的反向过程的分布,有了该概率分布,就可以采样了。
2024-08-17 23:22:39 303
原创 Diffusion
生成模型目前有四个流派,分别是生成对抗网络(Generative Adversarial Models,GAN),变分自编码器(Variance Auto-Encoder,VAE),标准化流模型(Normalization Flow, NF)以及这里要介绍的扩散模型(Diffusion Models,DM)。从上式可以知道,给定xt,只要知道前向过程从xt-1到xt加入的噪声ϵ,就可以在反向过程根据xt计算出xt-1的概率分布p(xt-1|xt,x0)。任意满足上述条件的随机变量序列X₀,X₁,X2,…
2024-08-17 20:20:13 607
原创 RNN、LSTM、Seq2Seq
编码器提取特征之后就到了解码器,解码器靠编码器最后输出的特征也就是(ℎ,C)来知道这句话是"go away",这里要强调一下Decoder的初始状态就是Encoder的最后一个状态h,现在Decoder开始输出德语字母,Decoder可以是LSTM模型,他每次接受一个输入然后输出下一个字母的概率,第一个输入必须是起始符,这就是我们为什么要在德语字典中要加入起始符的原因。,编码器一般是LSTM或者其他模型用于提取特征,它的最后的输出就是(从这句话)提取的最后的特征,而其他的隐层输出都被丢弃。
2024-08-12 01:32:42 752
原创 维语检测识别
困难的原因:目前对场景图像中文字检测与识别技术的研究多以中英文为主,对于维语文字的相关研究较少。维语文本检测识别的难点:(1) 单词级的维语文字检测。维语单词内与维语单词间均有字符空隙,在场景图像中会引起维语的分词歧义影响单词级的维语文字检测精度;(2) 鲁棒的文字区域特征提取。一方面,维语文字的纹理特征较为简单,场景图像中的背景噪声易与文字混淆而引起假阳性检测。另一方面,场景图像中维语文字的尺度变化大,小尺度文字区域易被漏检;(3) 维语文字的书写粘连性。维语字符间常出现粘连现象,这为主流的文字识别方
2021-08-25 22:24:24 1340
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人