模型学习
文章平均质量分 62
分享模型学习的过程
日落逍遥
时间与我共同定义
展开
-
文生图模型(text2img)
Text-to-image(文生图)模型是一种先进的人工智能技术,能够将描述性文本转换成相应的图像。这种模型的核心功能是解读用户输入的自然语言描述,并基于这些描述生成视觉内容。这类模型的实现通常依赖于深度学习框架,特别是生成对抗网络(GANs)或变分自编码器(VAEs)。在模型训练过程中,需要大量的文本-图像对作为数据源。通过这些数据,模型学习如何将文本信息映射到图像特征上,理解和把握不同文本描述对应的视觉元素和风格。例如,给定描述“一个坐在山顶上的红色帐篷”,模型将生成展示该场景的图像。原创 2024-05-31 16:59:58 · 461 阅读 · 0 评论 -
Stable diffusion xl的微调优化方式:Lora 、ControlNet 、Hypernetwork 、Textual Inversion 、Dreambooth
在 Stable Diffusion XL(SDXL)系列中,几种先进的微调和优化技术被集成以提高模型的精确性和多样性。原创 2024-05-24 16:23:59 · 206 阅读 · 0 评论 -
生成模型GAN
生成对抗网络(GAN,Generative Adversarial Network)是一种由两部分组成的深度学习模型:生成器(Generator)和判别器(Discriminator)。这两个部分在训练过程中相互对抗,从而提高生成的数据质量。这种模型最初是由Ian Goodfellow在2014年提出的。原创 2024-05-23 13:45:33 · 353 阅读 · 0 评论 -
大语言模型技术调研
大语言模型是利用深度学习技术构建的先进的计算模型,主要应用于各类自然语言处理(NLP)任务。这类模型通过在海量文本数据上进行自监督学习,能够捕捉和学习语言的复杂结构和细微的语义关系。大语言模型通常基于变换器(Transformer)架构,该架构采用自注意力机制来处理输入数据中的每个元素,并且能够并行处理,显著提高了处理效率和效果。这些模型在预训练阶段不针对特定任务进行优化,而是学习语言的通用特征,从而在后续的微调阶段能够快速适应各种具体应用,如文本摘要、情感分析、问题回答等。原创 2024-05-20 16:19:41 · 874 阅读 · 0 评论 -
MuseV and MuseTalk
MuseTalk通过潜在空间修复(Latent Space Inpainting)实现,能够在实时视频中实现高精度的口型与语音同步。原创 2024-05-20 15:29:33 · 585 阅读 · 0 评论 -
stargan-v2(未待完续)
风格迁移。原创 2024-05-10 13:43:24 · 226 阅读 · 0 评论 -
Stable Diffusion XL(未待完续)
SDXL Base模型由U-Net、VAE以及CLIP Text Encoder(两个)三个模块组成,SDXL Refiner模型同样由U-Net、VAE和CLIP Text Encoder(一个)三个模块组成。原创 2024-05-03 15:42:48 · 907 阅读 · 0 评论 -
Transform(未待完续)
为什么编解码矩阵和空间变换基础神经网络基础词嵌入Word2Vec注意力理解Q和V交叉注意力位置编码多头注意力掩码原创 2024-05-03 15:40:17 · 100 阅读 · 0 评论