CV及LLM常见名词解释

CV及LLM常见名词解释

看论文的时候,有些术语虽然常见但是却让人很难理解具体含义,如noise等,这里是一些常见术语的解释,同时也给出了这些术语所在的上下文及模型

例1:Stable Diffusion的文生图模块
在这里插入图片描述

  • Embedding:这是指将输入的文本(如“an astronaut riding a horse”)转换成一个高维空间中的向量表示。这个过程通常通过一个文本编码器(Text encoder)完成,它可以捕捉和编码文本的语义信息。Embedding向量是一个密集的向量,它将文本的信息压缩进一个固定长度的格式,以便模型可以处理。
  • Latent:这是指在模型中的隐藏层表示,它是一个在生成过程中的中间状态。在图像生成模型中,latent通常是指从初始噪声(noise)状态逐渐转换成有意义图像的那些中间状态的数据表示。它是模型内部的一个或多个层的输出,这些层试图捕捉输入数据的抽象特征。
  • Noise:在这个上下文中,noise是指在生成过程的开始被引入的随机数据。在图中的模型中,它通常是一个随机生成的初始图像(或图像块),这个随机噪声图像通过循环经过一个扩散模型(Diffusion model)被逐渐转换成一个具有特定意义的图像。在扩散模型中,噪声是被逐步减少的,而与之相对的,图像的特征则逐步增强。
  • Encoder:在深度学习模型中,encoder通常是一个神经网络结构,它的目的是将高维数据(如图像或文本)转换成一个低维的、密集的表示,即latent空间。这个过程涉及信息的压缩,encoder试图捕捉输入数据的核心特征。在文本到图像的生成模型中,encoder通常指的是将文本信息编码成向量的文本编码器。
  • Decoder:decoder是encoder的对偶,它的任务是将encoder输出的低维、密集的latent表示重新构建回原始数据的高维空间。在图像生成模型中,decoder负责将latent空间的数据“解码”成可识别的图像。这个过程通常涉及数据的扩张和细化,以生成高质量的输出图像。
  • RNG (Random Number Generator):RNG是一个生成随机数的系统,它在深度学习和模拟过程中非常关键。在文本到图像的生成模型中,RNG可以用于生成初始的噪声图像,这个噪声图像随后会通过decoder变换成有意义的图像。RNG的随机性保证了生成过程的多样性和不可预测性,是探索生成空间的重要工具。
  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值