深度学习
文章平均质量分 83
资料加载中
迎着风奔跑
展开
-
【AIGC】DreamBooth:微调文本到图像扩散模型用于主题驱动的生成
DreamBooth可以让我们使用一个很小的数据集微调文生图模型,然后基于文本提示词为我们训练的的主体替换不同的场景。大型文本转图像模型在人工智能的发展中实现了显著的飞跃,能够从给定的文本提示中高质量和多样化地合成图像。然而,这些模型缺乏模仿给定参考集中受试者外观的能力,也缺乏在不同背景下合成它们的新演绎的能力。在这项工作中,我们提出了一种文本到图像扩散模型的“个性化”新方法。给定一个主题的几张图像作为输入,我们微调一个预训练的文本到图像模型,以便它学会将唯一标识符与该特定主题绑定。原创 2024-01-14 19:28:23 · 980 阅读 · 0 评论 -
【AIGC】AnimateDiff:无需定制化微调的动画化个性化的文生图模型
Animatediff是一个有效的框架将文本到图像模型扩展到动画生成器中,无需针对特定模型进行调整。只要在大型视频数据集中学习到运动先验知识。AnimateDiff就可以插入到个性化的文生图模型中,与Civitai和Huggingface的文生图模型兼容,也可以与自己微调的大模型兼容。随着文本到图像模型(例如,Stable Diffusion [22])和相应的个性化技术的进步DreamBooth [24] 和 LoRA [13] 等产品,每个人都可以以可承受的成本将他们的想象力体现成高质量的图像。原创 2024-01-14 17:45:10 · 1963 阅读 · 0 评论 -
【AIGC】IP-Adapter:文本兼容图像提示适配器,用于文本到图像扩散模型
IPAdapter能够通过图像给Stable Diffusion模型以内容提示,让其生成参考该图像画风,可以免去Lora的训练,达到参考画风人物的生成效果。通过文本提示词生成的图像,往往需要设置复杂的提示词,通常设计提示词变得很复杂。文本提示可以由图像来替代。直接微调预训练模型也是一种行之有效的方法,但是需要消耗大量计算资源。并且存在模型兼容性问题。在本文中,我们介绍了IP-Adapter,这是一种有效且轻量级的适配器,用于实现预训练文本到图像扩散模型的图像提示功能。我们的 IP 适配器的关键设计是。原创 2024-01-13 23:56:55 · 4117 阅读 · 11 评论 -
【AIGC】Controlnet:基于扩散模型的文生图的可控性
controlnet可以让stable diffusion的生图变得可控。冻结了stable diffusion的预训练模型并重用它的预训练编码层神经网络结构与零初始化卷积层连接,从零开始逐渐增加参数,并确保微调过程中不会有噪声影响Controlnet在小数据集(小于5张万图)和大数据集(大于100万张图)上的训练表现都是稳定的。原创 2024-01-13 15:16:51 · 1615 阅读 · 0 评论 -
【论文解读】FFHQ-UV:用于3D面部重建的归一化面部UV纹理数据集
我们提出了一个大规模的面部UV纹理数据集,其中包含超过50,000张高质量的纹理UV贴图,这些贴图具有均匀的照明、中性的表情和清洁的面部区域,这些都是在不同光照条件下渲染逼真的3D面部模型所需的特征。该数据集源自大型人脸图像数据集 FFHQ,借助我们全自动且强大的 UV 纹理制作流程。我们的流程利用基于 StyleGAN 的面部图像编辑方法的最新进展,从单图像输入生成多视图归一化面部图像。然后应用精心设计的UV纹理提取、校正和完成程序,从归一化的人脸图像中生成高质量的UV贴图。原创 2023-11-18 23:17:25 · 1349 阅读 · 3 评论 -
stable diffusion到底是如何工作的
stable diffusion是一个文生图模型,主要由CompVis、Stability AI和LAION的研究者们创建。这个模型主要是在512X512分辨率的图像上训练的,训练数据集是LAION-5B,该数据集是目前可访问的最大的多模态数据集。原创 2023-11-16 01:19:53 · 821 阅读 · 2 评论 -
【pytorch源码剖析系列】梯度优化算法的概述和实践
看穿优化器原创 2023-03-24 14:04:02 · 616 阅读 · 0 评论 -
【pytorch源码剖析系列】模型搭建
pytoch模型构建方法原创 2023-03-19 18:38:37 · 270 阅读 · 2 评论 -
通过中心点生成heatmap
使用2D高斯函数来构建学习目标(heatmap)。将某一关键点的ground-truth作为中心点,这样一来,中心点处将具有最高的得分,越远离中心点,得分将越低。公式地表示,则有将关键点的grounnd-truth转换为mask,可以使用分割的方式预测k张feature-map对应k个关键点,最后在每个热力图中选择最大值对应的坐标,即为model预测输出的结果。对应代码段如下所示: 参考github:hourglass代码:...原创 2021-08-10 11:23:37 · 1083 阅读 · 0 评论 -
python实现自动化裁图并保存在指定文件夹下
函数功能:自动化裁图并保存函数应用:在深度学习当中,尤其是工业场景,通常数据集的尺寸大小非常大,而网络输入尺寸是固定的,所以在送入网络之前图片会统一resize到网络输入尺寸,图片较大的话,resize操作就相当于下采样,而图片送入网络后,网络通常还会进行数次下采样,如过我们要检测或分类的目标非常小的话,经过系列的下采样操作,感兴趣区域的目标特征直接2会消失。因此我们可以先将大图裁成数张小图进行训练,然后再将小图拼接回去,这样网络就能很好的学习到感兴趣区域的特征信息。函数运行示例:python seg原创 2021-01-14 17:38:01 · 746 阅读 · 1 评论 -
目标检测中对precision和recall的理解
首先有四个基本概念是由二分类的混淆矩阵得来,需要了解。TP:将实际正样本预测为正样本FP:将负样本预测为正样本TN:将负样本预测为负样本FN:将正样本预测为正样本最开始的时候分类可能认准了准确率(accuracy)作为评估指标。但是呢如果样本的正负样本很不均衡就会出现问题,准确率只考虑到了正样本的预测问题。比方说我们有一个预测person的任务,有1000张样本数据,其中有980张图片是person,还有剩下的20张是background,而我们训练的模型将1000张图片全部预测为person,我原创 2020-11-15 16:46:29 · 1377 阅读 · 0 评论