小白难-CSDN博客

原创 Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World Video Super-Resolution(翻译)

Upscale-A-Video，这是一个文本引导的视频放大潜在扩散框架。该框架通过两个关键机制确保时间一致性：在本地，它将时间层集成到 U-Net 和 VAE-Decoder 中，保持短序列之间的一致性；全局，在没有训练的情况下，引入流引导的循环潜在传播模块，通过在整个序列中传播和融合潜在来增强整体视频稳定性。

2024-12-01 13:26:36 888

原创学习视频超分辨率扩散模型中的空间适应和时间相干性（原文翻译）

SanteCo 专注于从低分辨率视频中学习时空指导，以校准潜在空间高分辨率视频去噪和像素空间视频重建。从技术上讲，SATeCo 冻结了预训练的 UNet 和 VAE 的所有参数，并且在 UNet 和 VAE 的解码器中只优化了两个有意设计的空间特征适应 (SFA) 和时间特征对齐 (TFA) 模块。

2024-11-30 16:24:54 1483

原创 LivePortrait代码调试—给图片实现动态表情

LivePortrait代码调试

2024-10-31 17:43:59 1097

原创 EasyPortrait – 人脸解析和肖像分割数据集翻译

EasyPortrait。该数据集包含40,000张主要模拟视频会议场景的室内照片，覆盖了13,705名独特用户，并且提供了精细分割的掩码，分为9个类别。

2024-10-30 18:02:06 1345

原创 CodeFormer——基于代码本查找变换器的鲁棒盲人脸修复翻译

CodeFormer，用于建模低质量人脸的全局组成和上下文，以便进行代码预测，从而发现即使在输入严重降质的情况下也能与目标人脸紧密接近的自然人脸。为了增强对不同降质情况的适应性，我们还提出了一个可控特征转换模块，允许在真实感和质量之间灵活权衡。得益于表现力强的代码本先验和全局建模，CodeFormer 在质量和真实感方面均优于当前最先进的技术，并表现出对降质的优越鲁棒性。

2024-10-30 18:00:53 1047

原创 LivePortrait——生成可拼接和重定向控制的高效肖像动画翻译

一个名为 LivePortrait 的视频流驱动肖像动画框架，重点关注实际使用的更好泛化、可控性和效率。为了提高生成质量和泛化能力，我们将训练数据扩展到大约 6900 万个高质量帧，采用混合图像视频训练策略，升级网络架构，设计更好的运动转换和优化目标。此外，我们发现紧凑的隐式关键点可以有效地表示一种混合形状，并精心设计了一个拼接和两个重定向模块，该模块利用较小的MLP，计算开销可以忽略不计，以增强可控性。

2024-10-30 17:58:57 597

原创 MobileStyleGAN:一种用于高保真图像合成的轻量级卷积神经网络

MobileStyleGAN:一种用于高保真图像合成的轻量级卷积神经网络

2024-08-28 18:10:53 2628

原创 GFPGAN论文——Towards Real-World Blind Face Restoration with Generative Facial Prior

GFPGAN论文——Towards Real-World Blind Face Restoration with Generative Facial Prior

2024-08-27 18:01:57 1394

原创基于生成对抗模型GAN蒸馏的方法FAKD及其在EdgesSRGAN中的应用

基于生成对抗模型GAN蒸馏的方法FAKD及其在EdgesSRGAN中的应用

2024-08-26 17:46:25 1673

原创照片逼真肖像动画的音频驱动合成——AniPortrait翻译与调试

AniPortrait的翻译与调试

2024-08-23 17:17:14 958

原创人脸图像生成说话的头部视频——SadTalker翻译与代码调试

SadTalker论文翻译与代码调试

2024-08-23 15:50:10 1171

原创一次样本音频驱动的说话人脸生成——Real3D-Portrait: One-shot Realistic 3D Talking Portrait论文翻译与代码调试

一次样本音频驱动的说话人脸生成——Real3D-Portrait: One-shot Realistic 3D Talking Portrait论文翻译与代码调试

2024-08-22 18:08:50 1601 3

原创 EchoMimic原文翻译+代码调试+不同模型对比

EchoMimic论文的翻译，代码调试与模型对比。

2024-08-21 16:52:51 2746

原创通过谷歌colab压缩下载 huggingface大模型

而一个一个下载文件又太麻烦，因此我们选择通过谷歌colab压缩下载 huggingface大模型。当我们直接使用命令下载huggingface大模型时，如。

2024-08-18 00:04:12 350

原创让你喜欢的角色给你唱歌——AniTalker论文翻译与代码调试

本文介绍了 AniTalker的原文翻译和代码调试，这是一个创新的框架，旨在从单个肖像中生成类似生命的说话人脸。

2024-08-16 18:10:41 896 1

原创 One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning

我们提出了广义 LoRA (GLoRA)，这是一种通用参数高效微调任务的先进方法。增强低秩适应 (LoRA)，GLoRA 采用广义提示模块优化预训练模型权重并调整中间激活，为不同的任务和数据集提供更大的灵活性和能力。此外，GLoRA 通过使用可扩展的、模块化的、分层的结构搜索来促进有效的参数适应，该搜索学习每一层的各个适配器。GLoRA起源于统一的数学公式，具有很强的迁移学习、少镜头学习和域泛化能力，因为它通过权值和激活的附加维度调整到新任务。综合实验表明，GLoRA 在自然、专业和结构化基准测试中优于所有

2023-06-19 21:49:02 380

原创 Gen-L-Video: Multi-Text to Long Video Generation via Temporal Co-Denoising

我们引入了一种新的范式，称为 Gen-L-Video，能够扩展现成的短视频扩散模型，以生成和编辑包含数百个具有不同语义片段的帧的视频，而无需引入额外的训练，同时保持内容的一致性。我们已经实现了三种主流的文本驱动视频生成和编辑方法，并扩展了它们以适应更长的视频，其中包含我们提出的范式的各种语义片段。我们的实验结果表明，我们的方法显着拓宽了视频扩散模型的生成和编辑能力，为未来的研究和应用提供了新的可能性。

2023-06-08 23:12:42 494

原创 Denoising Diffusion Semantic Segmentation with Mask Prior Modeling

我们的探索性分析揭示了几个重要的发现，包括：（1）将扩散模型简单地集成到语义分割中是不够的，设计不佳的扩散过程可能会导致分割性能下降； (2) 在训练过程中，添加噪声的对象比噪声类型更重要； (3)在推理过程中，严格的扩散去噪方案可能不是必需的，并且可以放宽到能够更好地工作的更简单的方案。

2023-06-08 23:06:19 416

原创 Efficient Geometry-aware 3D Generative Adversarial Networks

我们提出了一种新的方法来生成高质量、程式化的3D化身，该方法利用预先训练的图像-文本扩散模型进行数据生成，以及基于生成对抗网络(GAN)的3D生成网络进行训练。我们的方法利用图像文本扩散模型提供的外观和几何的综合先验，生成各种风格的虚拟形象。在数据生成过程中，我们使用从现有的 3D 模型中提取的姿势来指导多视图图像的生成。为了解决数据中姿势和图像之间的错位问题，我们研究了特定于视图的提示，并开发了用于 GAN 训练的从粗到细的鉴别器。

2023-06-08 16:44:28 130

原创 StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation

我们提出了一种新的方法来生成高质量、程式化的3D化身，该方法利用预先训练的图像-文本扩散模型进行数据生成，以及基于生成对抗网络(GAN)的3D生成网络进行训练。我们的方法利用图像文本扩散模型提供的外观和几何的综合先验，生成各种风格的虚拟形象。在数据生成过程中，我们使用从现有的 3D 模型中提取的姿势来指导多视图图像的生成。为了解决数据中姿势和图像之间的错位问题，我们研究了特定于视图的提示，并开发了用于 GAN 训练的从粗到细的鉴别器。我们还深入研究了与属性相关的提示，以增加生成的化身的多样性。

2023-06-06 22:21:20 213

原创 ViCo: Detail-Preserving Visual Condition for Personalized Text-to-Image Generation

我们提出了一种插件方法 ViCo，用于快速和轻量级的个性化生成。具体来说，我们提出了一个图像注意模块来调节patch-wise视觉语义上的扩散过程。我们引入了一个基于注意力的对象掩码，它几乎没有来自注意力模块的成本。此外，我们设计了一个简单的正则化，基于文本-图像注意图的内在属性，以缓解常见的过拟合退化。与许多现有模型不同，我们的方法不微调原始扩散模型的任何参数。这允许更灵活和可转移的模型部署。仅使用光参数训练（扩散 U-Net 的 6%），我们的方法在定性和定量上都实现了与所有最先进模型相当或更好的性能。

2023-06-06 21:25:47 286

原创 Any-to-Any Generation via Composable Diffusion

我们展示了 CoDi 的任何到任何生成能力，包括单到单模态生成、多条件生成以及多模态联合生成的新能力。例如，在给定文本输入提示的情况下生成同步视频和音频；或者在给定提示图像和音频的情况下生成视频。我们还使用八个多模态数据集对 CoDi 进行了定量评估。CoDi 在各种场景中表现出卓越的生成质量，合成质量与单模态 SOTA 相当甚至更好，例如音频生成和音频字幕。

2023-06-05 22:10:33 266

原创 Uni-ControlNet：文本到图像扩散模型的一体化控制

我们提出了Uni-ControlNet，这是一个利用轻量级适配器对预先训练的T2I扩散模型进行精确控制的新框架。如表1所示，与以前的方法不同，Uni-ControlNet将各种条件分为两个不同的组：局部条件和全局条件。因此，无论涉及多少个本地和全局控件，我们只添加两个额外的适配器。这种设计选择不仅大大降低了整体微调成本和模型尺寸，使得部署效率很高，而且便于不同条件的组合。为了实现这一点，我们专门设计了本地和全局控制的适配器。具体地说，对于本地控制，我们引入了多尺度条件注入策略，该策略使用共享的本地条件编码器

2023-06-04 21:53:41 567

原创 Prompt-Free Diffusion: Taking “Text“ out of Text-to-Image Diffusion Models

在本文中，我们提出了一种新的管道--无提示扩散，它基于样本图像而不是文本提示生成个性化输出。通过实验表明，我们的核心模块SeeCoder可以生成高质量的结果，并且可以通过替换片段轻松地在各种成熟的T2I管道上即插即用。最后但并非最不重要的一点是，SeeCoder在处理动漫形象生成和虚拟试穿等实际任务方面表现出了巨大的潜力，其质量令人惊讶，使其成为下游用户的进一步解决方案。

2023-06-03 17:42:41 312

原创数据库作业

（1）在course表的cname列上创建索引IDX_cname。（2）在student表的studentno和phone列上创建唯一索引uq_stu。并输出student表中的记录，查看输出结果的顺序。（3）创建一个视图v_teacher，查询所有“计算机学院”教师的信息。（4）创建一个视图v_avgstu，查询每个学生的学号、姓名及平均分，并且按照平均分降序排序。（5）修改v_teacher的视图定义，添加with check option选项。（6）通过视图v_teacher向基表teacher中分别

2023-05-26 16:19:47 2302

原创 Prompt-to-Prompt Image Editing with Cross Attention Control

我们的方法通过仅编辑文本提示来构建直观的图像编辑界面，因此称为Prompt-to-Prompt。这种方法可以实现各种编辑任务，否则具有挑战性，并且不需要模型训练、微调、额外数据或优化。在整个分析中，我们发现对生成过程的控制更多，认识到编辑提示和源图像的保真度之间的权衡。甚至我们证明，我们的方法可以通过使用现有的反演过程应用于真实图像。我们的实验和大量结果表明，我们的方法能够在极其多样化的图像上以直观的基于文本的方式无缝编辑。

2023-05-26 16:07:05 767

原创 T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Mode

我们提出了 T2I-Adapter，这是一种简单但有效的方法，能够以低成本很好地对齐 T2I 模型和外部控制信号的内部知识。2)。T2IAdapter 可以为现有的 T2I 模型提供更准确的可控指导，同时不影响其原始生成能力。3)。大量实验表明，我们的方法在各种条件下运行良好，这些条件也可以很容易地组合以实现多条件控制。4)。所提出的 T2I-Adapter 还具有吸引人的泛化能力，可用于一些自定义模型和粗略条件，例如自由手样式草图。

2023-05-22 20:57:23 434

原创 InternGPT: Solving Vision-Centric Tasks by Interacting with ChatGPT Beyond Language

我们提出了一个先进的交互式视觉框架，称为InternGPT (iGPT)，它结合了指向和语言指令的优势来执行复杂的以视觉为中心的任务。它由三个主要组件组成：处理图像或视频指向指令的感知单元，具有辅助控制机制的 LLM 控制器，可以准确解析语言指令，这是一个开放世界工具包，集成了 HuggingFace 的各种在线模型、用户训练的私有模型以及其他应用程序（例如，计算器、搜索引擎）。实习生GPT对指向和语言指令具有同等的重要性，并使用感知单元和LLM控制器在工具包中协调和执行应用程序，以完成复杂的以视觉为中心的

2023-05-18 11:35:17 467

原创 Magic3D: High-Resolution Text-to-3D Content Creation

在本文中，我们通过使用两阶段优化框架来解决这些限制。首先，我们使用低分辨率扩散先验得到一个粗模型，并使用稀疏的3D散列网格结构进行加速。在此基础上，进一步优化了纹理三维网格模型，并利用高效的可微渲染器与高分辨率的潜在扩散模型进行交互。我们的方法名为Magic3D，可以在40分钟内创建高质量的3D网格模型，比DreamFusion(据报道平均需要1.5小时)快2倍，同时获得更高的分辨率。用户研究显示，61.7%的评分者更喜欢我们的方法，而不是DreamFusion。与图像条件生成功能一起，我们为用户提供了控制

2023-05-11 17:06:54 158

原创 Magic3D: High-Resolution Text-to-3D Content Creation

我们使用低分辨率扩散先验得到一个粗模型，并使用稀疏的3D散列网格结构进行加速。在此基础上，进一步优化了纹理三维网格模型，并利用高效的可微渲染器与高分辨率的潜在扩散模型进行交互。我们的方法名为Magic3D，可以在40分钟内创建高质量的3D网格模型，比DreamFusion(据报道平均需要1.5小时)快2倍，同时获得更高的分辨率。用户研究显示，61.7%的评分者更喜欢我们的方法，而不是DreamFusion。与图像条件生成功能一起，我们为用户提供了控制3D合成的新方法，为各种创造性应用开辟了新的途径。

2023-05-08 20:44:20 253

原创排队论_M/M/1/inf/inf 问题

解：解析顾客到达强度ℷ=4(人/h)，修理强度μ=1/E(t)=1/0.1=10(人/h) (因为负指数分布的均值等于1/μ),故ρ=ℷ/μ=2/5。(3)店内至少有1个顾客的概率p{N>=1}=1-p{N=0}=1-p0=2/5。(6)等待服务的顾客平均数Lq=Ls-ρ=(ρ^2)/(1-ρ)=4/15(人)(2)店内有3个顾客的概率p3=(ρ^3)(1-ρ)=24/625。故p(w>t)=e^(-10*(1/6-1/15))=1/e。(4)店内顾客的平均数Ls=ρ/(1-ρ)=2/3(人)

2023-05-07 20:28:42 1309

原创 In-Context Learning Unlocked for Diffusion Models

本文旨在解锁文本引导的基于扩散的生成模型的上下文学习能力。我们引入了一种新的模型架构Prompt Diffusion，在视觉语言提示下执行上下文学习，可以适应各种视觉语言任务。我们在六种不同的视觉语言任务上联合训练提示扩散。

2023-05-07 19:49:36 245

原创 Adding Conditional Control to Text-to-Image Diffusion Model

本文介绍了ControlNet，这是一个端到端的神经网络体系结构，它控制大型图像扩散模型(如稳定扩散)来学习特定于任务的输入条件。ControlNet将一个大型扩散模型的权重克隆为“可训练副本”和“锁定副本”：锁定副本保留了从数十亿图像中学习的网络能力，而可训练副本则在特定于任务的数据集上进行训练，以学习条件控制。可训练和锁定的神经网络块与一种独特的卷积层相连接，该卷积层称为“零卷积”，其中卷积权重以学习的方式从零逐渐增长到优化的参数。由于保留了可用于生产的权重，因此训练在不同尺度的数据集上都是稳健的。

2023-05-07 14:49:38 155

原创 linux安装文件

国内云服务器换国内源 pip install xxx(包名) -i https://pypi.tuna.tsinghua.edu.cn/simple如：pip install jupyter -i https://pypi.tuna.tsinghua.edu.cn/simple

2022-04-09 19:31:07 365

原创数据库系统概述（王珊等）第四章数据库安全性课后习题

什么是数据库的安全性数据库的安全性是指保护数据库以防止不合法的使用所造成的数据泄露、更改或破坏。数据库安全性和计算机系统的安全性有什么关系安全性问题不是数据库系统独有的，所有计算机系统都有这个问题。只是在数据库系统中大量数据集中存放，而且为许多最终用户直接共享，从而使安全性问题更为突出。系统安全保护措施是否有效是数据库系统的主要指标之一.数据库的安全性和计算机系统的安全性，包括操作系统，网络系统的安全性是紧密联系，相互支持的。试述可信计算机系统评测标准的情况，试述TDI / TCSEC ..

2022-03-11 15:35:08 990

原创数据库系统概述（王珊等）第三章关系数据库标准语言SQL课后习题选做

数据库系统概述（王珊等）第三章关系数据库标准语言SQL课后习题选做试述SQL的特点（1）.综合统一（2）.高度非过程化（3）.面向集合的操作方式（4）.以同一种语法结构提供多种使用方式（5）.语言简洁,易学易用（6）.对于数据统计方便直观试述SQL的定义功能SQL的数据定义功能包括定义表、定义视图和定义索引。 SQL 语言使用 SREATE TABLE 语句建立基本表， ALTER TABLE 语句修改基本表定义， DROP TABLE 语句删除基本表；使用 CREATE INDE

2022-03-08 19:59:14 696

原创数据库系统概述（王珊等）第二章关系数据库课后习题选做

数据库系统概述（王珊等）第二章关系数据库课后习题选做试述关系模型的3个组成部分关系模型的三个组成部分，是指关系数据模型的数据结构、关系数据模型的操作集合和关系数据模型的完整性约束。试述关系数据语言的特点与分类(1)特点：语言具有完备的表达能力，是非过程化的集合操作语言，功能强，能够嵌入高级语言中使用。(2)分类：关系代数语言、关系演算语言(元组关系演算语言、域关系演算语言)、具有关系代数和关系演算双重特点的语言(SQL)定义并理解下列术语，说明它们之间的联系与区别：（1）域，笛卡

2022-03-05 20:18:26 201

原创数据库系统概述（王珊等）第一章概述课后习题选做

数据库系统概述（王珊等）第一章概述课后习题选做1.试述数据、数据库、数据库管理系统、数据库系统的概念。数据：描述事物的符号记录称为数据。描述事物的符号可以是数字，也可以是文字、图形、图像、声音、语言等，数据有多种表现形式，它们都可以经过数字化后存入计算机。数据库：数据库是长期储存在计算机内、有组织的、可共享的大量数据的集合。数据库管理系统：数据库管理系统是位于用户与操作系统之间的一层数据管理软件。数据库系统：数据库系统是指在计算机系统中引入数据库后的系统，一般由数据库、数据库管理系统（及其开发工具

2022-03-02 20:54:49 640

原创队列

队列定义：template <typename DataType>class Queue{private: int count; int maxSize; int front; int rear; DataType* elements;public: Queue(int size) { maxSize = size; front = 0; rear = 0; count = 0; elements = new DataType[size]; if(e

2021-02-02 20:38:57 126

原创散列表

散列表template <typename DataType> class HashTable{private: int maxSize; int count; DataType *elements;public: HashTable(int size) { count = 0; elements = new DataType[size]; maxSize = size; if(elements == NULL) return false; for(in

2021-02-02 20:38:13 126

空空如也

空空如也