[TI] [Textual Inversion] An image is worth an word

52Tiramisu

已于 2023-09-18 21:05:10 修改

阅读量252

点赞数

分类专栏：科研文章标签：笔记

于 2023-09-18 20:45:34 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gsj9086/article/details/132995746

版权

科研专栏收录该内容

8 篇文章 0 订阅

订阅专栏

自己的理解：

根据几个图像，找出来一个关键字可以代表它们，然后我们可以再用这个关键字去生成新的东西。

提出关键字

1 Introduction

word->token->embedding

Textual Inversion过程

需要：

① a fixed, pre-trained text-to-image model （一个固定的预训练模型）

② a small image set depicting the concept（一个描述概念的小图像集）

目标：

find a single word embedding, such that "A photo of S*" will lead to the reconstructions of images from our small set

3 Method

LDM

包含两个核心组件：

1.AutoEncoder

Encoder，把

Decoder

2.Diffusion Model

LDM Loss

Text embedding

典型的文本编码器（例如 BERT）都从文本处理步骤开始

① word (in a input string) convert to a token ( an index in some pre-defined dictionary某个预定义词典中的索引)

构建一个词汇表，包含数据集中出现的所有唯一token，通常是一个字典，将每个token映射到唯一的整数ID。

②each token then linked to a embedding vector (可以通过基于索引的查找来检索。)

对于每个token，使用词汇表的ID可以查找其对应的 embedding vector。

③learned as part of the text encoder c_{\theta}

in our work

定义一个 placeholder string S_*，表示我们想要学习的 new concept

干涉 embedding process，用 embedding v_* 取代与标记符相关的向量（本质上是把这个词注入到我们的词典中）

小结：

一串字符串文本，它的每个词可以通过分词器变为若干个 token，每个token可以映射到一个词向量，我们通过干预它映射词向量的过程，学得一个可以代表新特征的伪词。

Text Inversion

用 3-5张图片 depict 目标概念。

通过直接优化的方式，最小化 LDM loss，就可以找到 v_*

优化目标：

保持 \epsilon_{\theta} ,c_{\theta} 不变，重新训练LDM，来找到 V_*

小结：

通过几张图片输入到网络中，依据LDM loss，固定某些参数不变，来找到最合适的 V_*

参考资料：

Textual Inversion · AUTOMATIC1111/stable-diffusion-webui Wiki · GitHub

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[TI] [Textual Inversion] An image is worth an word

自己的理解：根据几个图像，找出来一个关键字可以代表它们，然后我们可以再用这个关键字去生成新的东西。提出关键字。
复制链接

扫一扫

专栏目录

52Tiramisu CSDN认证博客专家 CSDN认证企业博客

码龄7年

310: 原创

5万+: 周排名

5万+: 总排名

14万+: 访问

: 等级

4057: 积分

174: 粉丝

248: 获赞

66: 评论

377: 收藏

私信

关注

热门文章

分类专栏

PAT 80篇
科研 8篇
CSAPP 2篇
学习方法 1篇
Python 11篇
汇编语言 2篇
Docker 4篇
Spring 7篇
MyBatis 9篇
Vue 1篇
数据库 2篇
杭电面试 3篇
软件工程
Java面试 2篇
杭电笔试 9篇
hdoj 25篇
LeetCode 42篇
数据结构 10篇
王道 3篇
Java 10篇
设计模式 1篇
环境配置 13篇
others 7篇
C/C++基础 17篇
javaee 8篇
html 3篇
JavaScript 4篇
Android 11篇

最新评论

【二叉树】专题
CSDN-Ada助手: 推荐算法技能树：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
leetcode88. 合并两个有序数组
52Tiramisu: 过了4个月，思路全部忘了，这是咋回事= =
【链表】专辑
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。
【链表】专辑
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。
AndroidStudio Connection Reset 问题
Gyatchi: 先生快两年了㖞，就算解决都不记得啦

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。