私人专栏
文章平均质量分 55
柯南博客园
这个作者很懒,什么都没留下…
展开
-
多模态—文字生成图片
第一阶段:图片经过编码器编码为图片向量,当然我们应该注意这个过程存在无损压缩(图片假设200*200,如果用one-hot表示,我们还需要考虑通道,色彩表示,则其维度要达到200*200*(256^3),可以想象这个维度多高,经过编码器进行压缩编码,在进行解码器进行解码获取图片,不断训练,知道其误差极小,训练出一个较好的编码器和解码器。DALL-E是一个用于文字生成图片的模型,这也是一个很好思路的模型。实现过程:文字进行GPT获取图片编码,图片编码经过解码器来获取图片,以实现文字生成图片。原创 2024-10-05 00:20:49 · 60 阅读 · 0 评论 -
多模态—图文匹配
在模型训练时我们需要N个图片和N个文本对进行训练,文本通过text encoder形成文本语义向量,text encoder可以采用BERT,GPT,Bart等,图片也需要通过image encoder进行转化为图片向量,可以采用resnet,Vgg,ViT等。如下图所示,其对角线表示文图匹配对,我们作为正样本1,其余均是负样本-1,这里可以知道正样本是N个,负样本是N*N-N个,当N足够大时,正负样本数据不均衡问题会很明显,怎么做呢,我们需要对负样本采样。采样的策略是随机,还是顺序?原创 2024-10-04 23:35:52 · 45 阅读 · 0 评论 -
Vision Transformer
按照往常我们的想法transformer,Bert等模型都只能用来做NLP的问题,很少有人能去想做CV的问题,但是Vit的出现,打破了常规的认识,让我们知道了其实NLP和CV是没有界限的,只是技术的落后,把我们的想法限制住了。BERT模型的提出是用来做NLP的,通过BERT模型可以学习句子的语义,当然BERT的模型调用,输出有两个一个就是语义向量,另一个就是句子中所有token向量,那么语义向量是怎么表示的呢?BERT在进行句子编码时,会自动在句子头部添加[CLS],注意这个是不用我们自己添加的,[CL原创 2024-10-04 23:04:13 · 119 阅读 · 0 评论 -
Bert模型特征提取代码实现
为了适应模型处理的需要,input_ids的长度被规范化为一个固定的值。在这个规范化过程中,长度超出预定值的输入会被截断,而短于此长度的输入则通过添加特定的填充标记([PAD],通常对应的整数标识符为0)来补齐。及其衍生体中,输入文本首先经过一个分词处理流程,其中文本被细分为单词或子单词(subwords),每个分词随后映射到一个唯一的整数标识符。Bert官网已经有训练好的Bert模型,即下载可以使用,在训练模型时,需要保证不对Bert模型参数进行修改。vocat.txt存储的语料库。原创 2024-10-02 22:13:09 · 977 阅读 · 0 评论