研2菜鸟-CSDN博客

原创文生图个性化人像tuning-free论文梳理

文生图个性化人像tunning-free的方法中，主要集中在：1）如何更加准确有效地提取人脸图像中的面部信息，2）如何更加有效地将面部信息传入到文生图网络中，3）使用loss等约束人脸信息对文生图网络的过度影响，保持文本可编辑性和原有的生成能力。

2024-09-02 17:19:15 1547 3

Text-to-image (T2I) 其实现在已经取得比较大成功了，但是在 text-to-video (T2V) 领域，目前还是相对落后的，为什么呢？因为它计算是非常昂贵的。本文提出了一个 T2V generation setting，通过一个 one-shot video tuning， one shot 就是 base T2I model，只需要一条视频去做一下 fine-tuning，这样就能在这条视频上进行一些编辑，比如说把人换成钢铁侠，类似于这样的操作。

2024-03-18 10:06:16 1124

原创 Stable Video Diffusion: Scaling Latent Video Diffusion Models to large Data. SVD论文解读

之前普遍用的是方法是：2D 图像上去训练文生图模型，然后插入时间序列层，在小的高质量的视频数据集上进行微调。但是存在的问题：1）使用小视频数据集是不符合目前大数据的趋势的。2）目前的视频数据集缺少一个统一的有效的策略去管理。作者本文针对这个问题提出一套比较流程化的有效的视频数据治理的手段。作者提出了一个三步走的步骤：1）text-to-image pretraining 文生图预训练：实际上就是指我们目前已有的文生图的 stable diffusion base model。

2023-11-27 13:23:22 1949 1

原创 DreamBooth 论文精读+通俗理解

如今 AI 生成已经有很大的发展，但是这些模型都缺少能够通过一个给定的很小量的 reference set ，去模仿生成该 set 中所指定 subject 的图片。这种针对特定物体的生成，在此前绝大部分的生成模型都是做不到的。在这篇文章中，作者提出了一个新的方法 DreamBooth，用来个性化文生图 diffusion models。

2023-10-02 18:32:05 8132 2

原创 PrivaceFace 论文解读

在对 GPU 显存的占用方面，因为他们在 server 端有一次额外的训练，所以在我们模拟的时候，它其实多占了 1000 多兆的显存，而我们只是在训练的 loss 后面加了几项，所以我们的额外的显存也是很小的。(b) 研究了在不同的 privacy cost 下的性能变化，红色的线是我们不加任何噪声，practice cost 是正无穷，用我们的聚类中心来做的，可以看到在当 privacy cost 是 0.1 的时候，就是加的噪声相对比较大，但是性能已经比 baseline 高一些了。

2023-08-19 15:03:54 597

原创联邦学习_王树森_视频整理

讲了并行算法或者叫做分布式算法。其中有一个编程模型叫做 parameter server，系统里面有一个或几个节点作为server，其他的节点作为worker。server 和 worker 之间可以通信，通信的方式叫做 message passing， server 可以给 worker 发消息， worker 可以给 server 发消息。我们可以用这种系统来训练，最小二乘回归也可以训练神经网络。

2023-07-12 09:18:29 633