- 博客(52)
- 收藏
- 关注
原创 Stable Diffusion - Image to Prompts 推断生成我们“高度详细、清晰的焦点、插图、宏伟、史诗般的 3d 渲染”图像的提示
一部分是艺术,一部分是悬而未决的科学,机器学习从业者和研究人员正在迅速努力理解提示与其生成的图像之间的关系。提示中的小扰动会导致高度不同的图像吗?本次比赛的任务是创建一个模型,该模型可以可靠地反转生成给定图像的扩散过程。与“majestic kitten”相似——您将提交预测提示的嵌入。祝你好运,愿你在本文中创建“高质量、专注、复杂、详细、具有不真实的稳健交叉验证风格”的模型。您将对包含由 Stable Diffusion 2.0 生成的各种(提示、图像)对的数据集进行预测,以了。尽管字符级别存在差异。
2023-05-31 09:33:43
261
原创 inworld.ai -- chatgpt角色化
台,并添加可配置的安全性、知识、记忆、叙事控制、多模态等。通过内置的规模和性能优化,无缝集成到实时。获得超越大型语言模型 (LLM) 的。完全集成的 AI 角色平。
2023-05-31 09:22:00
228
原创 语义内核简介
因此,例如,使用 GPT-4 进行医疗病例笔记摘要的应用程序可以使用来自医学论文、合适的匿名笔记和其他相关文本的嵌入的矢量数据库,以确保其输出是连贯的和上下文中的。Kernel在这里的关键是作为业务流程协调器的角色,因为它不仅能够处理当前提示及其关联的令牌,还能够处理内存(键值对、本地存储和矢量或“语义”搜索),与其他信息服务的连接器,以及混合提示和传统代码的预定义技能。但是,还有第三种选择,语义记忆。类似的文本在与您的模型及其内容关联的整体空间中将具有相似的向量,就像搜索引擎生成排名结果的方式一样。
2023-05-30 05:26:29
261
原创 多个chatgpt模型
从 Alpaca 获得灵感,使用收集了大约800,000 个提示-响应对,创建了430,000 个助手式提示和生成训练对,包括代码、对话和叙述。80 万对大约是羊驼的 16 倍。该模型最好的部分是它可以在 CPU 上运行,不需要 GPU。与 Alpaca 一样,它也是一个开源软件,可以帮助个人进行进一步的研究,而无需花费在商业解决方案上。
2023-05-30 04:56:56
290
原创 PaddleGAN
发布Fisrt Order Motion模型以及多个预训练权重发布支持多人脸驱动的应用发布视频超分辨模型EDVR以及多个预训练权重发布PaddleGAN对应的七日打卡训练营内容增强PaddleGAN在windows平台运行的鲁棒性完全切换Paddle 2.0.0版本的API。发布超分辨模型:ESRGAN,RealSR,LESRCNN,DRN等发布唇形迁移模型:Wav2Lip发布街景动漫化模型:AnimeGANv2发布人脸动漫化模型:U-GAT-IT ,Photo2Cartoon发布
2023-05-29 06:55:37
347
原创 Wav2Lip
还有一个关于此的教程视频,由 What Make Art 提供。此外,多亏了 Eyal Gruss,Google Colab notebook 更易于使用,具有更多有用的功能。音频源可以是 FFMPEG 支持的任何包含音频数据的文件:*.wav、*.mp3 甚至是视频文件,代码会自动从中提取音频。或者,此处提供了使用 docker 镜像的说明。🔥 🔥 发布了几个新的、可靠的评估基准和指标 [评估/此 repo 的文件夹]。还提供了计算论文中报告的指标的说明。提供完整的训练代码、推理代码和预训练模型💥。
2023-05-29 06:49:01
3593
原创 Stable Diffusion v1
获得许可,该许可包含特定的基于使用的限制,以防止模型卡告知的误用和伤害,但在其他方面仍然是允许的。虽然许可条款允许商业使用,但我们不建议在没有额外安全机制和考虑的情况下将提供的权重用于服务或产品,因为权重存在已知的限制和偏差,并且对安全和道德部署的研究通用的文本到图像模型是一项持续的工作。权重是研究工件,应该这样对待。另请参阅有关我们的许可证所基于的 BLOOM Open RAIL 许可证的文章。有关训练过程和数据的详细信息,以及模型的预期用途,请参见相应的模型卡。其训练数据中存在的偏见和(错误)概。
2023-05-29 06:34:24
167
原创 英区智齿发炎自救 -- 牙周炎,抗菌治疗+止疼治疗+中医药辩证治疗
综上,对于牙痛的治疗,我们主要参考两种治疗原则相结合,一是抗菌药+镇痛药+对证中成药的治疗原则,二是口服药+局部外用药的治疗原则,此外还需注意,若在上述药物治疗均疗效不佳、顾客长期牙疼时,还是得建议顾客前往口腔专科进行诊断治疗,以免延误病情。许多牙疼容易反复发作,多与病邪病因未祛除有关,而且一般药店人也常常给顾客推荐口服的中成药,若辩证不对,还可能加重病情,因此正确辩证应用中成药,既能有效治疗,也可避免牙疼反复发作。牙痛,或牙龈出血,或牙龈红肿溃烂,口气热臭,口干舌燥,舌红苔黄。
2023-05-29 06:08:23
444
原创 图灵完备机
图灵完备性是计算理论中的基础概念,它使得我们能够证明某个计算问题是不可解的(即不存在算法可以解决该问题),或者证明某个编程语言具有足够的表达能力来解决所有的可计算问题。n等),这些语言提供了丰富的控制结构(如条件语句和循环语句)和数据结构,使得我们可以编写复杂的算法和程序。总结来说,图灵完备性是指一个计算模型或编程语言具有与图灵机等效的计算能力,能够解决一切可计算的问题。如果一个计算模型或编程语言具有与图灵机等效的计算能力,那么它就被称为图灵完备的。常见的图灵完备编程语言包括。来模拟图灵机的行为。
2023-05-29 05:47:31
150
原创 牙周炎 梅奥家庭手册
PeriodontitisEnlarge imagePeriodontitis (per-e-o-don-TIE-tis), also called gum disease, is a serious gum infection that damages the soft tissue around teeth. Without treatment, periodontitis can destroy the bone that supports your teeth. This can cause tee
2023-05-29 05:47:28
131
原创 薛定谔方程
薛定谔方程可以分为“含时薛定谔方程”与“不含时薛定谔方程”两种。(Schrödinger equation)是描述物理系统的。不含时薛定谔方程则与时间无关,描述了。:1-2薛定谔方程的解完备地描述物理系统里,微观尺寸。量子系统的物理性质;该方程的解就是定态量子系统的。:127薛定谔方程是个非相对论性方程,不适用于。,为量子力学的基础方程之一,其以发表者。关于量子态与薛定谔方程的概念涵盖于基础。而在量子力学里,类似的。里,无法从其它任何原理推导而出。另外,薛定谔方程的解还。有关,描述量子系统的。
2023-05-28 06:23:24
1015
原创 概率密度函数
概率,而是给出了在不同取值上的概率密度。概率密度函数的值可以理解为在某个取值附近的概率密度大小。具体来说,如果某个取值的概率密度函数值较大,表示在该取值附近的概率相对较高;而如果概率密度函数值较小,表示在该取值附近的概率相对较低。它对于连续型随机变量来说是非常重要的概念。PDF可以用来描述变量在不同取值上的概率分布情况。,我们使用概率质量函数(Probability Mass Function,简称PMF)来描述其概率分布。需要注意的是,概率密度函数只对。的x,f(x) ≥ 0。出随机变量取某个具体值的。
2023-05-28 05:33:15
2595
原创 VAE,变分
我们要介绍的VAE就是latent variable model的一种,我们将会看到,VAE可以利用BP算法来快速训练,且不需要对latent code的prior有任何知识,所有你需要的只是一个简单的encoder-decoder模型。举例来说,我们很容易能注意到相同类别的数据在不同维度之间是有依赖存在的,比如生成数字5的时候,如果左边已经生成了数字5的左半部分,那么右半部分就几乎可以确定是5的另一半了。因此,只要有足够强力的函数估计器,我们就可以获得任何分布的latent variable z。
2023-05-28 05:24:24
205
原创 FastChat (Vicuna) 存储库尚不支持 GPTQ 量化模型
另一个优点是使用量化模型版本时推理过程中的加速约为 3 倍。是的,量化模型的精度略低,因此性能略差于全精度模型。然而,正是模型的量化让我们中的许多人完全可以使用该模型。存储库集成到此分支中以运行 GPTQ 量化模型。为什么我们应该使用 Vicuna 模型的 GPTQ 量化版本?通过使用 GPTQ 量化版本,我们可以将 VRAM 要求从。,这使我们能够在单个消费类 GPU 上运行。表明,特别是对于较大的语言模型,由于。28 GB 减少到大约 10 GB。应用量化而导致的质量下降。
2023-05-27 23:30:32
517
原创 大型语言模型空间,美洲陀 LLaMA ,
我们还在论文中提供了一组评估模型偏差和毒性的基准评估,以显示模型的局限性并支持在这一关键领域的进一步研究。即使最近在大型语言模型方面取得了所有进展,但由于训练和运行此类大型模型所需的资源,对它们的全面研究访问仍然有限。在大型语言模型空间中训练像 LLaMA 这样的小型基础模型是可取的,因为它需要更少的计算能力和资源来测试新方法、验证他人的工作和探索新的用例。为了训练我们的模型,我们从使用最多的 20 种语言中选择了文本,重点是那些使用拉丁字母和西里尔字母的语言。1.4 万亿个token。
2023-05-27 05:12:21
122
原创 【无标题】
再根据LLaMA的架构(hidden_size = 4096, intermediate_size =11008, num_hidden_layers = 32, context_length = 2048)计算中间变量内存。混合精度训练的大致思路是在 forward pass 和 gradient computation 的时候使用 fp16 来加速,但是在更新参数时使用 fp32。综上,int8 精度的 LLaMA-6B 模型部分大致需要 6GB+6GB+12GB+1.3GB = 25.3GB 左右。
2023-05-27 05:03:22
184
原创 DragGAN 是什么
DragGAN 使用了一种创新的交互式编辑方法,仅需在图片上点击控制点和目标点,系统就会根据你的需求完成图片的修改。DragGAN 的最大特点在于它的灵活性,可以调整很多不同的特征,比如位置、形状、姿势等等。除此之外,DragGAN的精度十分高,你能够非常精确地调整各种不同的特征,真正实现完美无缺的效果。最后是它的通用性,不仅适用于不同类型的对象,而且能够满足各种不同的用户需求。简单来说,它能够让你轻松掌控图片中的人物和动物,通过拖拽控制点和目标点来调整他们的位置、形状、姿势等等。s)技术的图片编辑项目。
2023-05-27 03:42:05
1405
原创 Stable diffusion
这种技术的一项关键优势是它可以生成非常逼真的图像。它也能产生一种连续的图像生成过程,其中每一步都是从前一步产生的。最终的图像:经过足够多的扩散步骤后,最终的结果是一个看起来像真实图像的图像。这种方法可以用来生成新的,以前从未见过的图像,例如新的人脸或新的艺术作品。Stable diffusion"在图像生成中的概念,特别是在深度学习和生成对抗网络(GANs)中的应用,涉及到利用扩散过程模型进行图像合成。这是为了保持图像的稳定性,防止生成过程产生不稳定的结果。这种扩散过程的目标是逐步从噪声生成真实的图像。
2023-05-26 17:13:11
32138
原创 GAN损失函数
此时右边只有第二项有用, G希望自己生成的图片“越接近真实越好”,能够欺骗判别器,即D(G(z))尽可能得大,这时V(D, G)会变小。在最理想的状态下,G可以生成足以“以假乱真”的图片G(z)。对于D来说,它难以判定G生成的图片究竟是不是真实的,因此D(G(z)) = 0.5。公式左边V(D,G)表示生成图像和真实图像的差异度,采用二分类(真、假两个类别)的交叉熵损失函数。D(x)代表x为真实图片的概率,如果为1,就代表100%是真实的图片,而输出为0,就代表不可能是真实的图片。交叉熵损失V(D,G)
2023-05-26 06:09:53
502
原创 ChatGLM 微调实战
通过排序序列前两篇文章主要对 RM 和 RL 两部分进行了讲解和实验,但无数的经验向我们证明 —— 拥有一个好的 SFT 的模型对后两步的训练至关重要。由于在 RL 训练过程中会加入与 SFT 模型的相似度(KL-Divergence)惩罚,这意味着 RL 模型的上限很大程度上取决于 SFT 模型。为此,我们今天来重点讲一讲如何通过 ChatGLM 来微调一个读懂我们指令的模型。
2023-05-26 05:23:30
2822
原创 FasterTransformer
考虑到这种广泛使用的是注意力机制,它显着提高了模型的计算效率、质量和准确性。具有数千亿个参数的大型基于 transformer 的模型就像一个巨大的百科全书和大脑,其中包含有关它所学一切的信息。同时,TP 和 PP 可以结合在一起,在多 GPU 和多节点环境中运行具有数十亿和数万亿参数(相当于 TB 级权重)的大型 Transformer 模型。,允许您使用预烘焙pre-baked 的 docker 容器以简单的方式运行 ML/DL 模型的推理,仅使用一行代码和简单的类似 JSON 的配置。
2023-05-24 04:26:22
472
原创 Megatron-LM
BioMegatron 具有与 Megatron-LM 相同的网络架构,但在不同的数据集 - PubMed 上进行了预训练,这是一个大型生物医学文本语料库,与原始 Megatron-LM 相比,它在生物医学下游任务中取得了更好的性能。预训练的 Megatron-LM (BERT) 可用于 NeMo/examples/nlp 的大多数 NLP 下游任务。Megatron-LM [NLP-MEGATRON1] 是由 NVIDIA 的应用深度学习研究团队开发的大型、强大的转换器。NeMo 中的模型并行。
2023-05-24 04:17:20
1137
原创 什么是扩散模型?
在任意时间步 $t$ 以封闭形式对 $\mathbf{x}_t$ 进行采样。设 $\alpha_t = 1 - \beta_t$ 和 $\bar{\alpha}_t = \prod_{i=1}^t \alpha_i$:�吨在任意时间步长吨以封闭形式使用。已经提出了几种基于扩散的生成模型,这些模型具有相似的思想,包括。图2. 缓慢加入(去除)噪声生成样本的正向(反向)扩散过程的。Ho 等人,2020 年)。上述过程的一个很好的特性是我们可以使用。,在该过程中,我们逐T步向样本中。等人,2015 年)、
2023-05-22 06:03:23
153
原创 Stable Diffusion WebUI
有几个限制,阻止它生成与 Stable Diffusion WebUI 生成的图像一样好的图像。并且缺少图像放大功能(在 Stable Diffusion WebUI 中也称为 HighRes);默认情况下性能低,VRAM 使用率高。.safetensor 文件格式。Diffusers 包。缺乏 LoRA 支持;
2023-05-22 05:52:18
131
原创 稳定的 Diffusion WebUI,扩散模型是通过固定过程学习的,并且潜在变量具有高维性(与原始数据相同
和 Diffusion Scheduler 的一流支持,以 Automatic1111 的 WebUI 和 Evel_Space 的风格制作。支持文本到图像、图像到图像和修复模式,通过重用内存中已加载的模型权重,在管道模式之间快速切换。他们在生成高质量样本方面取得了巨大成功,但每个都有。稳定的 Diffusion WebUI,具有对。与 VAE 或流模型不同,扩散模型是通过。我写过三种类型的生成模型,从噪声中构建所需的数据样本。流模型必须使用专门的。扩散步骤的马尔可夫链。的,并且潜在变量具有。
2023-05-22 05:35:54
130
原创 TensorRT -- github
的源代码,以及演示 TensorRT 平台用法和功能的示例应用程序。如果使用 TensorRT OSS 构建容器,TensorRT 库预安装在 /usr/lib/x86_64-linux-gnu 下,您可以跳过此步骤。对于 Linux 平台,我们建议您生成一个用于构建 TensorRT OSS 的 docker 容器,如下所述。有关 TensorRT-OSS 版本附带的新增功能和更新的摘要,请参阅变更日志。有关对 TensorRT-OSS 的代码贡献,请参阅我们的贡献指南和编码指南。
2023-05-21 18:53:50
307
原创 纳什均衡--也叫非合作均衡
的策略以及因此被判两年的结局被称作是“纳什均衡”(也叫。),换言之,在此情况下,无一参与者可以。“独自行动”(即单方面改变决定。符合自己利益的选择是。
2023-05-21 04:25:38
87
原创 【无标题】
结合整体模型图示,再以生成图片作为例子具体说明下面。我们有两个网络,G(Generator)和D(Discriminator)。Generator是一个生成图片的网络,它接收一个随机的噪声z,通过这个噪声生成图片,记做G(zDiscriminator是一个判别网络,判别一张图片是不是“真实的”。它的输入是x,x代表一张图片,输出D(x)代表x为真实图片的概率,如果为1,就代表100%是真实的图片,而输出为0,就代表不可能是真实的图片。
2023-05-21 04:23:06
23
原创 Fractional-strided convolution,分数阶卷积,也称为转置卷积或反卷积
Fractional-strided 卷积层通过在输入值之间插入零来实现上采样,从而有效地创建稀疏特征图。然后过滤器在这个稀疏特征图上滑动,并在每个位置执行过滤器权重和非零输入值之间的点积,生成输出值。然而,在实践中,小数步长卷积被实现为一个常规卷积,然后是一个缩放操作。它们不是将多个输入值映射到单个输出值,而是将单个输入值映射到多个输出值,从而有效地增加了特征图的空间维度。在常规卷积层中,我们有一组在输入图像上滑动的过滤器,并且对于每个位置,它们在过滤器权重和相应的输入值之间执行点积。
2023-05-21 04:08:05
594
1
原创 GAN纯生成,另一种是条件生成
,同一张图把它转换到另一个季节的估计图,也有或如早之前的StarGAN人脸属性编辑(换妆、换头发颜色、添加/去除眼镜、加胡子、变爷们或者女性化等),也有从语义分割的图生成街景图、风景图(Pix2PixHD,这类图像翻译问题,基本上可以归结到一类问题,那就是条件生成。语义图转风格化图像,这里的用处就很多了,比如娱乐与教育,艺术创作,图像编辑等。在CVPR2019有一篇文章提出使用一段语音,合成一张人脸,这里的条件就是。纯生成GAN的研究,通常追求。纯生成,另一种是条件生成。文字embedding。
2023-05-21 04:04:52
109
原创 DCGAN,即深度卷积 GAN
DCGAN,即深度卷积 GAN,是一种生成对抗网络架构。鉴别器中使用 batchnorm。鉴别器中使用 LeakyReLU。所有层使用 ReLU 激活。分数跨步卷积(生成器。
2023-05-21 03:59:37
147
原创 DCGAN
DCGAN 是上述 GAN 的直接扩展,只是它在鉴别器和生成器中分别明确使用了卷积层和卷积转置层。它首先由 Radford 等人描述。阿尔。
2023-05-21 03:24:42
192
原创 Conditional GAN
Conditional GAN (CGAN,条件GAN),是 Mehdi Mirza 于2014年11月份发表的一篇文章,也是 GAN 系列的早期经典模型之一,是目前许多GAN应用的前身。文章的想法是 希望 可以控制 GAN 生成的图片,而不是单纯的随机生成图片。具体地,Conditional GAN 在生成器和判别器的输入中增加了额外的 条件信息生成器生成的图片只有足够真实且与条件相符,才能够通过判别器。
2023-05-21 03:20:57
253
原创 StyleGAN
StyleGAN 是一种生成对抗网络。它为生成对抗网络使用了。使用渐进式增长的训练机制。随机生成的潜在变量在经过。的正则化形式,在训练期间。最后,它采用一种称为。混合两种风格的潜在变量。
2023-05-21 01:50:38
136
原创 ProGan,关键创新在于渐进式训练
而且随着分辨率的增加,随着训练的进行学习越来越多的细节。训练低分辨率图像不仅更容易、更快,而且有助于训练。2018年,NVIDIA首次用ProGAN解决了这一挑战,研究人员一直。(例如1024×1024)。该技术首先通过学习低分辨率图像中出现的。更高级别的图像(防止过落入次最优解。极低分辨率的图像(如4×4。每次增加一个更高分辨率的层。无法生成高质量的大图像。关键创新在于渐进式训练。
2023-05-20 21:35:51
305
原创 GAN与styleGAN
新架构导致高级属性(例如,在人脸训练时的姿势和身份)和生成图像(例如雀斑、头发)的随机变化的自动学习、无监督分离,并且它能够实现直观的、规模化的合成的特定控制。但是,由于图像嵌入在高维空间中,因此分布的距离不容易测量.因此,FID 的基本概念是使用最近开发的精度超过人类的图像识别模型,将图像嵌入低维空间,并测量该空间中的分布距离。带下标w的为生成图像,不带w的为真实图像。并且判别器学会了在插入真实图像时输出 1(等式中的第一项),并学会在插入生成器生成的图像时输出 0(等式中的第二项)。
2023-05-20 06:35:48
253
原创 TensorRT(1)-介绍-使用-安装
TensorRT现已能支持TensorFlow、Caffe、Mxnet、Pytorch等几乎所有的深度学习框架,将TensorRT和NVIDIA的GPU结合起来,能在几乎所有的框架中进行快速和高效的部署推理。所以为了提高部署推理的速度,出现了很多轻量级神经网络,比如squeezenet,mobilenet,shufflenet等。基本做法都是基于现有的经典模型提出一种新的模型结构,然后用这些改造过的模型重新训练,再重新部署。等),参数很多,而且部署端的机器性能存在差异,就会导致推理速度慢,延迟高。
2023-05-20 06:28:29
238
原创 StyleGAN
假如通过映射网络f首先对Z进行映射得到W,不仅可以保证与训练集一致的分布,还获得更加均匀的属性分布,潜在向量空间W与生成图片的属性之间有更好的线性关系,这有利于对生成图片的属性控制,因此W更加合适作为生成器的输入。训练数据集通常是有偏的,比如在人脸的属性中,性别包括男女,头发包括长短,其中{男,长发}属性一起出现的概率较低,而{男,短发},{女,长发},{女,短发}一起出现的概率较高,反映到。以StyleGAN生成的人脸图像为例,作者在论文的实验中发现,按照尺度可以将人脸特征分为3个层级,全局特征,
2023-05-20 06:25:03
507
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人