- 博客(151)
- 资源 (1)
- 收藏
- 关注
原创 【AIGC】MIMO:基于空间分解建模的可控人物视频合成
在本文中,我们提出了一种新的可控制字符视频合成框架MIMO,它允许用户通过简单的属性输入进行灵活的控制。该方法引入了一种新的生成体系结构,将视频片段分解为不同的空间分量,并嵌入其潜在编码作为解码器重构视频片段的条件。实验结果表明我们的方法不仅可以实现灵活的角色,运动和场景控制,而且还可以扩展到任意角色,通用性到新颖的3D运动,并适用于交互式场景。我们还认为,我们的解决方案考虑了固有的3D性质,并自动将2D视频编码为分层空间组件,可以启发未来3D感知视频合成的研究。
2024-10-19 23:26:48 648
原创 【AIGC数字人】EchoMimic:基于可编辑关键点条件的类人音频驱动肖像动画
EchoMimic:基于可编辑地标条件的类人音频驱动肖像动画
2024-09-08 17:21:05 1045 1
原创 【BUG】使用accelerator运行分布式代码时卡住:Multi GPU process stuck
使用accelerator运行分布式代码时卡住:Multi GPU process stuck
2024-06-04 16:16:12 813
原创 【AIGC】FaceChain:发挥生成式内容的无限可能性
FaceChaine提供了一系列的生成方案,通过少量的图像输入,就能生成逼真的个性化肖像。它是一个个性化肖像生成框架,包含丰富的人脸感知相关的模型,例如人脸检测,深度人脸向量提取,人脸属性分析等等。输入主要的肖像生成功能,社区还包括虚拟试穿,2D数字人功能最近的一些工作都聚焦于使用少量的图像再基础模型的基础上去做微调,让微调网络记住某个特定人物身份信息。这样就可以结合提示词在大模型的基础上得到更多新样式的高保真图像。目前人物为主的个性化肖像文生图方法主要分两种:1.基于lora,2基于人脸身份。
2024-06-01 23:51:41 891
原创 【AIGC-数字人】V-Express:渐进式训练的数字人视频生成技术
在人像视频生成领域,使用单张图像生成人像视频已经变得越来越普遍。一种常见的方法涉及利用生成模型来增强适配器以实现受控生成。然而,控制信号的强度可能会有所不同,包括文本、音频、图像参考、姿态、深度图等。其中,较弱的条件往往由于较强条件的干扰而难以发挥作用,这对平衡这些条件提出了挑战。在我们关于肖像视频生成的工作中,我们发现音频信号特别弱,常常被姿势和原始图像等更强的信号所掩盖。然而,用弱信号直接训练往往会导致收敛困难。
2024-06-01 13:21:16 869
原创 【实用工具】使用飞书机器人监控工程日志
将error,info,debug放在三个机器人上,平时可以查看,等到真正使用时,把info和debug界别日志去掉,避免发送日志影响性能。1.创建一个飞书群聊,设置-->群机器人-->添加机器人-->自定义机器人-->修改机器人名称-->添加。日志信息将包括日期、执行程序的进程和ip,最后加上日志信息。2.复制webhook地址。3.编写日志请求代码。
2024-04-09 22:05:52 723
原创 【BUG】无法发起与 typora.io:443 (2a03:2880:f10c:83:face:b00c:0:25de) 的连接 - connect (101: 网络不可达)
1. 取消 https://typora.io/linux ./ InRelease。目录中的相关文件,并将对应的软件源的行注释掉,或者将其删除。2. 要取消对特定软件源的更新,您可以编辑。
2024-04-08 20:19:26 1326
原创 【pytorch函数】gather函数
输入张量是一个2行2列的张量,0表示以列为单位进行索引,index_tensor表示对应列上的索引值,比如在第0列上取1,1位置上的值填充到原来的位置,第1列上取1,1位置上的值填充到原来的位置,也就是说只能在各自列或者各自行上的相应位置的元素替换为该列或者该行任意位置的元素。
2024-04-08 20:16:14 462 1
原创 【AIGC】Diffusers:扩散模型的开发手册说明2
扩散器被设计成一个用户友好且灵活的工具箱,用于构建适合您用例的扩散系统。工具箱的核心是模型和调度程序。然而 DiffusionPipeline 为方便起见将这些组件捆绑在一起,但您也可以解包管道并分别使用模型和调度程序来创建新的扩散系统。解构 Stable Diffusion 流水线稳定扩散是一种文本到图像的潜在扩散模型。它被称为潜在扩散模型,因为它使用图像的低维表示而不是实际的像素空间,这使得它更节省内存。编码器将图像压缩为较小的表示形式,解码器将压缩的表示形式转换回图像。对于文本到图像模型,需要。
2024-01-24 23:46:08 1448 1
原创 【AIGC】photomaker:基于多个图像ID嵌入的定制化逼真人物照片
通过一张图或者多张图像输入,该文方法可以记住人物ID,改变属性、改变风格和混合人物ID的效果。效果SOTA。类似的工作有ipadapter,lora,Dreambooth.这些方法不是消耗算例和时间就是效果不明显,不具有泛化性。最近的一些文生图工作在结合文本提示词的情况下合成真人图片已经取得了巨大的进展。这些工作不能同时满足高效,高的ID置信度和文本控制的自由性。我们的工作PhotoMaker是一个有效的个性化文生图生成方法。可以输入任意张ID图像然后通过堆叠来保留ID信息。
2024-01-23 23:32:03 1408
原创 【代码实战】从0到1实现transformer
在本例中,值和键是编码器的输出,而查询是自注意力模型的输出。在高层次上,它基于编码器对源句子上下文的理解,并将解码器输入的部分句子作为查询(可以为空),以预测如何完成句子。但是,如果将它们设置为小于总词汇量的值(例如这种情况),则会限制矢量化器仅学习更频繁的单词,并使生僻单词成为词汇表外 (OOV)。您将看到除了嵌入和位置编码之外,您还有编码器(图的左半部分)和解码器(图的右半部分)。为了理解单词的含义,从而量化两个单词之间的相互关系,您将使用单词嵌入技术。因此,在创建此层时,您可以为其创建一个常量张量。
2024-01-21 23:29:51 1052
原创 【AI理论知识】高斯混合模型
高斯混合模型(GMM)是单一高斯概率密度函数的延伸,就是用多个高斯概率密度函数(正态分布曲线)精确地量化变量分布,是将变量分布分解为若干基于高斯概率密度函数(正态分布曲线)分布的统计模型。GMM是一种常用的聚类算法,一般使用期望最大算法(Expectation Maximization,EM)进行估计。
2024-01-21 22:52:26 1008
原创 【shell编程入门】shell脚本调试
在脚本中添加输出语句,显示变量的值、执行到达的位置等信息,以便您可以跟踪脚本的执行流程。命令可以用于捕获信号并执行相应的命令,帮助您在脚本中添加额外的调试信息或进行清理工作。是一个用于静态分析Shell脚本的工具,可以帮助您找到潜在的问题。添加到脚本的开头,以便在任何命令返回非零退出状态时立即退出脚本。将脚本分成小块,逐步执行以查找错误。可以在脚本执行时显示每个命令及其参数。检查脚本的语法,以确保没有语法错误。在使用管道时,可以在各个步骤中插入。在关键点检查命令的返回值,使用。命令等方式在脚本中暂停执行。
2024-01-21 20:51:07 450
原创 【pytorch框架】使用 PyTorch 进行深度学习
PyTorch 是由 Facebook 创建和发布的用于深度学习计算的 Python 库。它起源于早期的库 Torch 7,但完全重写。它是两个最受欢迎的深度学习库之一。PyTorch 是一个完整的库,能够训练深度学习模型以及在推理模式下运行模型,并支持使用 GPU 进行更快的训练和推理。这是一个我们不能忽视的平台。您可以使用pip安装 PyTorch。在撰写本文时,PyTorch 的最新版本是 2.0。每个平台(包括 Windows、Linux 和 macOS)都有预构建的 PyTorch。
2024-01-21 15:34:53 1724
原创 【AI知识片段】Transformer模型中的位置编码
位置编码描述序列中实体的位置或位置,以便为每个位置分配唯一的表示形式。单个数字(如索引值)不用于表示项目在转换器模型中的位置的原因有很多。对于长序列,索引的量级可能会变大。如果将索引值归一化为介于 0 和 1 之间,则可能会对可变长度序列产生问题,因为它们的归一化方式会有所不同。转换器使用智能位置编码方案,其中每个位置/索引都映射到一个向量。因此,位置编码层的输出是一个矩阵,其中矩阵的每一行表示序列的一个编码对象,该序列与其位置信息相加。仅对位置信息进行编码的矩阵示例如下图所示。
2024-01-21 14:59:10 1531
原创 【shell编程入门】stable diffusion webui的webui.sh脚本解析
通过webui.sh,我们可以在linux系统下安装虚拟环境,并启动stable diffuson webui。
2024-01-15 23:54:51 988
原创 【AIGC】DreamBooth:微调文本到图像扩散模型用于主题驱动的生成
DreamBooth可以让我们使用一个很小的数据集微调文生图模型,然后基于文本提示词为我们训练的的主体替换不同的场景。大型文本转图像模型在人工智能的发展中实现了显著的飞跃,能够从给定的文本提示中高质量和多样化地合成图像。然而,这些模型缺乏模仿给定参考集中受试者外观的能力,也缺乏在不同背景下合成它们的新演绎的能力。在这项工作中,我们提出了一种文本到图像扩散模型的“个性化”新方法。给定一个主题的几张图像作为输入,我们微调一个预训练的文本到图像模型,以便它学会将唯一标识符与该特定主题绑定。
2024-01-14 19:28:23 1206
原创 【AIGC】AnimateDiff:无需定制化微调的动画化个性化的文生图模型
Animatediff是一个有效的框架将文本到图像模型扩展到动画生成器中,无需针对特定模型进行调整。只要在大型视频数据集中学习到运动先验知识。AnimateDiff就可以插入到个性化的文生图模型中,与Civitai和Huggingface的文生图模型兼容,也可以与自己微调的大模型兼容。随着文本到图像模型(例如,Stable Diffusion [22])和相应的个性化技术的进步DreamBooth [24] 和 LoRA [13] 等产品,每个人都可以以可承受的成本将他们的想象力体现成高质量的图像。
2024-01-14 17:45:10 2511
原创 【AIGC】IP-Adapter:文本兼容图像提示适配器,用于文本到图像扩散模型
IPAdapter能够通过图像给Stable Diffusion模型以内容提示,让其生成参考该图像画风,可以免去Lora的训练,达到参考画风人物的生成效果。通过文本提示词生成的图像,往往需要设置复杂的提示词,通常设计提示词变得很复杂。文本提示可以由图像来替代。直接微调预训练模型也是一种行之有效的方法,但是需要消耗大量计算资源。并且存在模型兼容性问题。在本文中,我们介绍了IP-Adapter,这是一种有效且轻量级的适配器,用于实现预训练文本到图像扩散模型的图像提示功能。我们的 IP 适配器的关键设计是。
2024-01-13 23:56:55 6105 11
原创 【AIGC】Controlnet:基于扩散模型的文生图的可控性
controlnet可以让stable diffusion的生图变得可控。冻结了stable diffusion的预训练模型并重用它的预训练编码层神经网络结构与零初始化卷积层连接,从零开始逐渐增加参数,并确保微调过程中不会有噪声影响Controlnet在小数据集(小于5张万图)和大数据集(大于100万张图)上的训练表现都是稳定的。
2024-01-13 15:16:51 1839
原创 【设计模式】代理模式
代理模式(代理模式):是一种结构型设计模式,它允许通过代理对象控制对另一个对象的访问。代理通常充当客户端和真实对象之间的中介,用于控制对真实对象的访问或添加一些额外的行为。
2024-01-10 22:29:27 427
常用数据集集锦.zip
2020-05-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人