AIGC
文章平均质量分 76
AIGC基础
aolaf
这个作者很懒,什么都没留下…
展开
-
多模态(三)--- BLIP原理与源码解读
传统的Vision-Language Pre-training (VLP)任务大多是基于理解的任务或基于生成的任务,同时预训练数据多是从web获取的图像-文本对,存在很大的噪声。因此作者提出了BLIP架构,引导语言图像预训练,以实现统一的视觉语言理解和生成。原创 2024-02-17 20:47:30 · 1676 阅读 · 0 评论 -
多模态基础---BERT
BERT用于将一个输入的句子转换为word_embedding,本质上是一个transformer的Encoder。原创 2024-02-15 19:34:12 · 1112 阅读 · 0 评论 -
多模态基础--- word Embedding
原始的单词编码方式:one-hot,维度太大,不同单词之间相互独立,没有远近关系区分。wordclass,将同一类单词编码在一起,此时丢失了类别和类别间的相关信息,比如class1和class3都属于生物word Embedding编码方式:将每个word映射到高维向量上。原创 2024-02-15 17:08:45 · 1041 阅读 · 0 评论 -
多模态(二)--- CoCa原理与源码解读
CoCa代表Contrastive Captioner 的缩写,代表模型用两个目标函数训练出来的,一个是Contrastive Loss,一个是Captioning Loss。原创 2024-02-05 16:17:24 · 746 阅读 · 0 评论 -
多模态(一)--- CLIP原理与源码解读
CLIP的英文全称是Contrastive Language-Image Pre-training,即一种基于。CLIP是一种,训练数据是文本—图像对:一张图像和它对应的文本描述,这里希望通过对比学习,模型能够学习到文本-图像对的匹配关系。原创 2023-12-27 16:44:06 · 2545 阅读 · 0 评论 -
Stable Diffusion 基本原理
输入一张和我们所需结果图的噪声图像,通过Denoise模块逐步减少noise,最终生成我们需要的效果图。图中Denoise模块虽然是同一个,但是它会根据和选择denoise的程度。原创 2023-12-23 20:07:20 · 2099 阅读 · 0 评论