Garry1248-CSDN博客

原创带3090显卡的Linux服务器上部署SDWebui

一直在研究文生图，之前一直是用原始模型和diffuser跑SD模型，近来看到不少比较博主在用 SDWebui，于是想着在Linux服务器上部署体验一下，谁知道并没有想象的那么顺利，还是踩了不少坑。记录一下过程，也许能帮忙有同样需求的朋友。

2024-03-24 23:00:49 919 2

原创【3】文件读写

小知识: 由于文件读写时都有可能产生IOError，一旦出错，后面的f.close()就不会调用，产生异常。Python引入了with语句来自动帮我们调用close()方法。

2024-03-15 13:24:50 431

原创【2】Python变量类型、IO

所谓「变量」，就是可以变化的量。变量可以通过变量名访问。这一概念来源于数学，用在编程领域中，是指计算机语言中能储存计算结果或能表示值的抽象概念。

2024-03-14 13:25:32 986

计算机编程语言是指用于人与计算机之间通信的语言，是人与计算机之间传递信息的媒介，因为它是用来进行程序设计的，所以又称程序设计语言或者编程语言。编程语言是一种特殊的语言。因为它是用于人与计算机之间传递信息的，所以人和计算机都能“读懂”。具体地说，一方面，人们要使用计算机语言指挥计算机完成某种特作，就必须对这种工作进行特殊描述，所以它能够被人们读懂。另一方面，计算机必须按计算机语言描述来行动，从而完成其描述的特定工作，所以能够被计算机“读懂”。

2024-03-13 00:18:38 1097

原创文生图、文生视频领域PaperList [持续更新]

AutoEncoder 【自编码器】 : https://arxiv.org/abs/2003.05991VAE 【变分自编码器，Diffusion Model的源头】: https://arxiv.org/abs/1906.02691非均衡热动力学深度无监督学习【Diffusion的理论基础】: https://arxiv.org/abs/1503.03585DDPM 【第一篇将Diffusion成功应用于图像生成的论文】: https://arxiv.org/abs/2006.11239DDI

2024-02-23 10:08:07 547

原创蒙特卡洛概率抽样简介

本教程分为四个部分；什么是抽样？为什么需要抽样？什么是蒙特卡罗方法？蒙特卡罗方法的示例在统计学中，抽样（Sampling）是一种推论统计方法，它是指从目标总体（Population，或称为总体）中抽取一部分个体作为样本（Sample），通过观察样本的某一或某些属性，依据所获得的数据对总体的数量特征得出具有一定可靠性的估计判断，从而达到对总体的认识。蒙特卡罗方法（简称 MC），也称统计模拟方法，是一类对概率分布进行随机采样的技术。

2024-01-17 22:46:40 3426 1

原创如何训练你自己的大语言模型: 分步指南

在你开始训练LLM的旅程时，确定你的目标至关重要。这就像在开始公路旅行之前在 GPS 上设置目的地一样。你的目标是创建对话式聊天机器人、内容生成器还是针对特定行业的专用人工智能？明确目标将指导你后续的决策并塑造你的LLM的发展道路。考虑你希望LLM擅长的具体用例。你的目标是客户支持、内容创建还是数据分析？每个目标都需要不同的数据源、模型架构和评估标准。此外，请考虑你所选领域的独特挑战和要求。例如，如果您=你正在开发用于医疗保健的人工智能，则需要遵守隐私法规并遵守严格的道德标准。

2024-01-04 17:15:55 2996

原创分布式训练与主流并行范式

分布式系统由在多台机器上运行的多个软件组件组成。例如，传统的数据库运行在单机上。随着数据量变得非常大，单台机器无法再为企业提供理想的性能，尤其是在黑色星期五等网络流量可能意外高的情况下。为了应对这种压力，现代高性能数据库被设计为在多台机器上运行，它们协同工作，为用户提供和。分布式系统的一项重要评估指标是。例如，当我们在4台机器上运行一个应用程序时，我们自然期望该应用程序的运行速度能够提高4倍。但由于通信开销和硬件性能差异，很难实现线性加速。因此，我们在实现应用程序时考虑如何使应用程序更快是很重要的。

2024-01-02 17:54:50 1103

原创大语言模型入门要点

顾名思义，大语言模型是指在大型数据集上训练以理解和生成内容的模型。本质上，它是一个大规模的Transformer模型。Transformer 模型本身是一个神经网络，旨在通过分析顺序数据内的关系来掌握上下文和含义。Transformer 非常适合大语言模型，因为它们有两个重要特征：位置编码和自注意力。位置编码帮助模型理解序列中单词的顺序，并将此信息包含在单词嵌入中。

2023-12-25 23:57:07 1935

原创深入探讨多模态模型和计算机视觉

多模态深度学习是深度学习的一个子集，用于处理来自多种模态的数据的融合和分析，例如文本、图像、视频、音频和传感器数据。多模态深度学习结合了不同模态的优势，创建更完整的数据表示，从而在各种机器学习任务上获得更好的性能。传统上，机器学习模型被设计为处理来自单一模态的数据，例如图像分类或语音识别。然而，在现实世界中，数据通常来自多个来源和模式，这使得数据变得更加复杂且难以分析。多模态深度学习旨在通过整合来自不同模态的信息来生成更准确、信息更丰富的模型，从而克服这一挑战。

2023-12-24 12:00:57 1882

原创图像识别中的 Vision Transformers (ViT)

在 ICLR 2021 上作为会议论文发表的一篇研究论文中介绍了 Vision Transformer (ViT) 模型架构，题为“An Image is Worth 16*16 Words: Transformers for Image Recognition at Scale”。它由 Neil Houlsby、Alexey Dosovitskiy 以及Google 研究大脑团队的另外 10 位作者开发和发布。微调代码和预训练的ViT模型可在 Google 研究团队的 GitHub 上获取。你可以在。

2023-12-23 19:25:39 2133

原创一文了解YOLO家族技术演进史

YOLO 模型之所以出名，主要有两个原因：速度&准确性，以及快速可靠地检测图像中的对象的能力。在这篇博文中，我分享获得的见解，该论文深入研究了 YOLO 模型的技术演进历程，全面概述了 YOLO 框架的演变，涵盖了从最初的 YOLOv1 到最新的 YOLOv8 的所有 15 个模型。

2023-12-22 09:45:11 2519

原创一文了解视觉分割新SOTA: SAM (Segment Anything Model)

2023年是AI技术突飞猛进的一年，如果您认为AI领域已经通过 ChatGPT、GPT4 和 Stable Diffusion 获得了快速发展，那么请不要忽略下一个突破性创新: SAM。Meta 的 FAIR 实验室发布的，是一种最先进的图像分割模型，旨在改变计算机视觉领域。SAM 基于对自然语言处理 (NLP) 产生重大影响的基础模型（Foundation Model）。它专注于提示分割任务（promptable segmentation tasks），使用提示工程来适应不同的下游分割问题。

2023-12-21 11:31:15 14519

原创一文了解提示工程（Prompt Engineering）

提示是你期望 AI 模型输出的精确蓝图。它们充当中介语言，将人类意图转化为人工智能可以执行的任务。

2023-12-20 10:27:46 2471

原创利用gradio快速搭建AI应用

是一个用于快速创建交互式界面的Python库，这些界面可以用于演示和测试机器学习模型。使用Gradio，开发者可以非常轻松地为他们的模型构建一个前端界面，而不需要任何Web开发经验。

2023-12-19 09:31:59 1155

原创浅谈深度学习中的不同归一化层

目前，深度学习已经彻底改变了自然语言处理、计算机视觉、机器人等许多子领域。深度学习当然涉及训练精心设计的深度神经网络，并且各种设计决策会影响这些深度网络的训练机制。其中一些设计决策包括这些设计决策主要取决于我们试图解决的基本任务，并且需要更深入地了解我们手头的不同选项。在这篇博文中，我将重点讨论第二点“深度学习中的不同归一化层”。概括地说，我将涵盖以下方法。

2023-12-18 10:06:36 1461

原创 Textual Inversion: 一种精调Stable Diffusion模型的方法

最近的文本到图像Stable Diffusion （SD）模型已经证明了使用文本提示合成新颖场景的前所未有的能力。这些文本到图像的模型提供了通过自然语言指导创作的自由。然而，它们的使用受到用户描述特定或独特场景、艺术创作或新物理产品的能力的限制。很多时候，用户被迫行使她的艺术自由来生成特定的独特或新概念的图像。此外，使用新数据集为每个新概念重新训练模型非常困难且昂贵。论文《》提供了一种简单的方法来允许这些创作自由。

2023-12-17 12:56:25 4659

原创使用Pytorch从零开始构建LoRA

在这篇博文中，我将向大家展示如何使用Pytorch从头开始构建 LoRA。LoRA 是Low-Rank Adaptation或Low-Rank Adapters的缩写，它提供了一种高效且轻量级的方法来微调预先存在的语言模型。这包括BERT和RoBERTa等掩码语言模型，以及GPT、Llama和Mistral等因果（或聊天机器人）模型。LoRA的主要优点之一在于其效率。通过使用更少的参数，LoRA 显着降低了计算复杂性和内存使用量。

2023-12-16 19:11:03 3694 2

原创使用Pytorch从零开始构建StyleGAN2

这篇博文是关于 StyleGAN2 的，来自论文Analyzing and Improving the Image Quality of StyleGAN，我们将使用 PyTorch 对其进行干净、简单且可读的实现，并尝试尽可能地还原原始论文。如果您没有阅读 StyleGAN2 论文。或者不知道它是如何工作的并且你想了解它，我强烈建议你看看扫一下原始论文，了解其主要思想。我们在本博客中使用的数据集是来自 Kaggle 的数据集，其中包含 16240 件女性上衣，分辨率为 256*192。

2023-12-15 09:25:49 2424

原创使用Pytorch从零开始构建StyleGAN

本文介绍的是当今最好的 GAN 之一，来自论文《》的 StyleGAN ，我们将使用 PyTorch 对其进行干净、简单且可读的实现，并尝试尽可能接近原始论文。如果您没有阅读过 StyleGAN1 论文，或者不知道它是如何工作的，但您想了解它，我强烈建议您参考。我们在本博文中使用的数据集是来自 Kaggle 的数据集，其中包含 16240 件女性上衣，分辨率为 256*192。

2023-12-14 13:02:21 1951 1

原创 [论文精读] 使用扩散模型生成真实感视频 - 【李飞飞团队新作，文生视频新基准】

我们提出了 W.A.L.T：一种基于 Transformer 的方法，通过扩散建模生成逼真的视频。首先，我们使用因果编码器在统一的隐空间内联合压缩图像和视频，从而实现跨模态的训练和生成。其次，为了提高记忆和训练效率，我们使用专为联合空间和时空生成建模而定制的窗口注意力架构。总而言之，这些设计决策使我们能够在已建立的视频（UCF-101 和 Kinetics-600）和图像（ImageNet）生成基准上实现最先进的性能，而无需使用无分类器指导。

2023-12-13 14:59:03 2046

原创生成式模型对比：扩散模型、GAN 与 VAE

GAN [1, 2] 学习生成类似于训练数据集的新数据。它由两个神经网络：一个生成器和一个鉴别器组成，实际上是一个 two-player game。生成器采用从正态分布中采样的随机值并生成合成样本，而鉴别器则尝试区分真实样本和生成样本。生成器经过训练可以产生可以欺骗鉴别器的真实输出，而鉴别器经过训练可以正确区分真实数据和生成数据。图 1 的顶行显示了其工作方案。VAE [3, 4] 由编码器和解码器组成。编码器将高维输入数据映射为低维表示，而解码器尝试通过将该表示映射回其原始形式来重建原始高维输入数据。

2023-12-12 15:38:15 5829

原创谈谈多模态大模型

长期以来，每个机器学习模型都以一种数据模式运行——文本（翻译、语言建模）、图像（对象检测、图像分类）或音频（语音识别）。然而，自然智能并不仅限于单一模态。人类可以阅读和书写文本。我们可以看到图像并观看视频。我们听音乐来放松，留意奇怪的声音来发现危险。能够处理多模态数据对于我们或任何人工智能在现实世界中运行至关重要。OpenAI 在其中指出，“将额外的模态（例如图像输入）纳入大语言模型被一些人视为人工智能研究和开发的关键前沿。将额外模态纳入 LLM（大型语言模型）可创建 LMM（大型多模态模型）。

2023-12-11 11:37:49 1763

原创一文理解CNN中基础核心概念

卷积神经网络 (CNN) 改变了计算机视觉，并广泛用于图像分类、对象识别和图像分割。对于初学者来说，理解这个 CNN 模型的模型架构可能会很困难，因为他们会发现一些未知的术语。我将在这里列出并描述其中一些术语，希望对您的深度学习之旅有所帮助。

2023-12-10 11:58:37 1217

原创 [论文精读] 自条件图像生成 - 【恺明大神新作，AIGC 新基准】

本文提出了一种表示条件图像生成（Representation-Conditioned image Generation，RCG）方法,这是一种简单却有效的图像生成框架,它为无类别图像生成建立了新的基准。RCG不依赖任何人工标注。相反,它依赖于一个预训练编码器映射出来的自监督表示分布（self-supervised representation distribution ）。

2023-12-09 01:05:33 2505

原创目标检测器技术演进简史

在本文中，我们将探讨目标检测的主题、含义、优势以及许多有趣的地方，我们还将尝试分析目标检测的总体趋势和演变。目标检测任务可以非常简单地表述：什么目标位于何处？目标检测是计算机视觉中的一项关键任务，其目标是识别和定位图像中的各种对象，例如汽车、骑自行车的人和交通灯。这是通过使用坐标（xminx_{min}xminyminy_{min}yminxmaxx_{max}xmaxymaxy_{max}ymax。

2023-12-08 15:21:34 2498

原创一文理解LLM中基础核心概念

如果你正在处理接触大语言模型(LLM)，大概率应该遇到过术语“tokens”， “tokenizer”，“tokenization”，“vectors” 以及 “word embeddings.”。这些基础概念在自然语言处理 (NLP) 中非常重要，用于以各种方式表示和分析文本。在这篇博文中，我们将深入探讨什么是token、向量和嵌入，并解释如何创建它们。

2023-12-06 10:41:04 1481 1

原创 [论文精读]序列建模使大视觉模型的规模化学习成为可能

纯CV大模型

2023-12-05 14:01:45 1518 1

原创 Bishop新著 - 深度学习:基础与概念 - 第一章 - 深度学习革命

当我们使用平方和误差函数 (1.2) 来拟合多项式时，我们看到了此类误差函数的示例。通过这些更改，我们现在有了一个误差函数，其相对网络中每个参数的导数都可以计算。我们现在可以考虑具有不止一层参数的网络。图 1.15 显示了一个具有两个处理层的简单网络。中间层的节点称为隐藏单元(hidden units)，因为它们的值不会出现在训练集中，训练集中仅提供输入和输出的值。图 1.15 中的每个隐藏单元和每个输出单元都计算由 (1.5) 和 (1.6) 给出的形式的函数。

2023-12-04 19:58:59 1941 3

原创 Bishop新著 - 深度学习:基础与概念 - 前言

大神Bishop最新深度学习巨著

2023-12-04 10:06:38 2616 1

原创使用pytorch从零开始实现迷你GPT

生成式建模知识回顾:[1][2][3][4][5][6][7][8]在本文中，我们将使用 PyTorch 构建一个类似于 GPT-3 的简单decoder-only transformer模型。我们将编写代码来定义模型架构（layers, modules and functions）、跑跑训练（包括损失计算和反向传播）和inference，以更好地理解像 GPT 这样的模型如何端到端工作。我们将在本文中使用 PyTorch 来利用其训练和推理功能。您可以在。

2023-12-03 12:00:55 2073 4

原创使用Pytorch从零开始实现BERT

最后，我们准备好运行模型的训练。长话短说，打开main.py脚本文件，检查学习参数并运行。我在 nVidia GeForce 1050ti GPU 上训练了模型。如果支持cuda，模型将默认在 GPU 上进行训练。EPOCHS = 4嵌入大小为 64，隐藏注意力上下文大小为 36，批量大小为 12，注意力头数量为 4，编码器数量为 1。学习率为 7e-5。我们使用 TensorBoard 来跟踪训练过程。运行训练脚本后，您应该会看到它如何准备 IMDB 数据集训练开始了。

2023-12-02 21:38:16 2050 1

原创 [论文精读]利用大语言模型对扩散模型进行自我修正

文本到图像生成随着扩散模型的出现而取得了显著进步。尽管能够生成逼真的图像,但当前的文本到图像扩散模型仍然经常难以准确解释和遵循复杂的输入文本提示。与仅以最佳努力生成图像的现有模型相反,我们引入了自我校正语言模型控制扩散(SLD)。SLD是一个框架,它从输入提示中生成一个图像,评估其与提示的对齐程度,并对生成图像中的不准确之处进行自我校正。在语言模型控制器的驱动下,SLD将文本到图像生成转化为一个迭代封闭循环的过程,确保结果图像中的正确性。

2023-12-01 10:44:05 1716

原创使用Pytorch从零开始实现CLIP

生成式建模知识回顾:[1][2][3][4][5][6][7][8]

2023-11-30 10:23:46 3149 2

原创文生图领域经典-ControlNet介绍

虽然传统的图像生成模型可以产生令人惊叹的视觉效果，但它们通常缺乏指导，因此无法生成符合用户所需图像合成的图像。充当指导角色的可以是任何东西，从简单的涂鸦到复杂的深度图或边缘图。想象一下，能够勾画出粗略的轮廓或提供基本的深度图，然后让人工智能填充细节，生成高质量、连贯的图像。借助 ControlNet，时装设计师可以勾勒出服装的粗略想法或轮廓，系统可以生成这些设计的真实描述，并包含复杂的图案、纹理和颜色。然后，系统可以提供详细的可视化效果，填充纹理、材料和潜在的照明场景，从而提供最终结构的更全面的视图。

2023-11-29 09:29:44 1723

原创使用Pytorch从零开始构建扩散模型-DDPM

知识回顾:[1][2][3][4][5][6][7][8]

2023-11-28 09:18:32 3315 4

原创使用Pytorch从零开始构建Energy-based Model

知识回顾:[1][2][3][4][5][6][7][8]在本教程中，我们将研究，并重点关注它们作为生成模型的应用。在 2012 年深度学习大肆炒作之前，能量模型一直是一种流行的工具。然而，近年来，由于提出了改进的训练方法和技巧，基于能量的模型越来越受到关注。尽管它们仍处于研究阶段，但它们已证明在某些情况下优于强大的生成对抗网络，业已成为生成图像的最先进技术。因此，了解基于能量的模型很重要，由于理论有时可能很抽象，我们将通过大量示例来展示基于能量的模型的思想。

2023-11-27 10:31:06 1971

原创使用Pytorch从零开始构建Normalizing Flow

归一化流 (Normalizing Flow) （Rezende & Mohamed，2015）学习可逆映射fX→Z, 在这里X是我们的数据分布Z选定的潜在分布。归一化流是生成模型家族的一部分，其中包括变分自动编码器 (VAE) (Kingma & Welling, 2013)和生成对抗网络 (GAN) (Goodfellow 等人, 2014)。一旦我们学会了映射F，我们通过采样生成数据zpZ, 然后应用逆变换,F−1zXGen。

2023-11-26 13:05:01 2114

原创使用Pytorch从零开始构建Conditional PixelCNN

在后续论文（使用 PixelCNN 解码器生成条件图像）中推测，结果降级的一个可能原因是 PixelCNN 中的 ReLU 激活与 LSTM 中的门控连接相比相对简单。或估计测试中的不确定性。这是一个在论文中很少提及的技巧，但有助于避免过度拟合——我只在一篇关于视频中动作识别训练的论文中看到过它，其中由于高维度与当前数据集大小，过度拟合是一个问题可用的。PixelCNN 是 PixelRNN 的卷积版本，它将图像中的像素视为一个序列，并在看到前面的像素后预测每个像素（定义如上和左，尽管这是任意的）。

2023-11-25 08:54:15 1331

原创使用Pytorch从零开始构建GRU

门控循环单元（GRU），顾名思义，是RNN 架构的一种变体，它使用门控机制来控制和管理神经网络中单元之间的信息流。Cho 等人于 2014 年才引入 GRU。可以被认为是一种相对较新的架构，特别是与Sepp Hochreiter 和 Jürgen Schmidhuber于 1997 年提出的广泛采用的 LSTM 相比。GRU 的结构使其能够自适应地捕获大型数据序列的依赖性，而不会丢弃序列早期部分的信息。这是通过其门控单元实现的，类似于 LSTM 中的门控单元，它解决了传统 RNN 的梯度消失/爆炸问题。

2023-11-24 09:52:27 2802

空空如也

空空如也