Kuekua-seu-CSDN博客

原创基于文生图模型的创新应用

利用基础模型的生成能力，使用lora+sdedit（inpainting）实现组图的生成，并保证组图间内容的关联和连续性。仅通过lora激活和加强基础模型生成组图能力，并设计构建prompt实现组图的输出。prompt构建方式：整个组图描述+每张图的具体描述，用[IMAGE*]来标识每张图片的起始描述，用<*>来定义任务，以保持组图内人物id的连续性。无参考图时直接文生图生成大图，然后切分成需要的小图；

2024-12-31 18:33:44 367

原创 Lora算法原理及应用

Text Embedding空间中的词向量是有足够的表达能力恢复出图像特征，同时Textual Inversion技术不需要对SD系列模型中的U-Net部分进行微调训练（SD模型参数冻结），只需要训练一个新的token embedding就足够了，所以使用Textual Inversion技术不会儿干扰SD模型本身已有的先验知识。LoRA模型的训练逻辑是首先冻结SD模型的权重，然后在SD模型的U-Net结构中注入LoRA权重，主要作用于CrossAttention部分，并只对这部分的参数进行微调训练。

2024-10-24 10:35:07 933

原创 diffusion vs GAN

条件生成对抗网络（cGAN）是 Pix2pix 的基础架构。传统的 GAN（生成对抗网络）包括一个生成器（Generator）和一个判别器（Discriminator），生成器从噪声分布中生成假样本，判别器则尝试区分真假样本。cGAN 则在此基础上加入了条件信息，使得生成过程不仅依赖于噪声，还依赖于特定的条件输入，从而引导生成器生成符合条件的样本。

2024-09-27 15:41:52 2196

原创文生视频算法

3D VAE Encoder能在时间和空间维度上将输入的原始视频映射到Latent空间中。将视频信息的Latent特征和文本信息的Embeddings特征进行Concat后，再Patch化，并进行扩散过程输出去噪后的视频Latent特征。：接收经过大型语言模型（LLM）增强的用户输入Prompt和视觉信息的Prompt，用以引导扩散模型生成具有特定风格或者主题的视频内容。：使用类似于ViT（视觉转换器）的处理方式将视频的Latent特征进行Patch化，并进行扩散过程输出去噪后的视频Latent特征。

2024-09-13 12:02:12 2027 2

原创虚拟试衣算法

如何提升姿势迁移生成能力，增强细节生成效果，并保持内容的持续性。该方案同样可用于虚拟试衣，换脸等场景。

2024-07-26 15:01:40 799

原创热门文生图模型

中文文生图能力，进一步提升文生图质量。

2024-07-12 11:37:22 336

原创生成图质量评价

如何对生成图质量进行算法评价，以优化图片质量，提升模型生成能力。

2024-07-09 12:26:50 556

原创 Vision Transformer

以上是self-attention的原理，但是还有一个问题是：现在的self-attention中没有位置的信息，一个单词向量的“近在咫尺”位置的单词向量和“远在天涯”位置的单词向量效果是一样的，没有表示位置的信息(No position information in self attention)。k,v来自Transformer Encoder的输出，所以可以看做句子(Sequence)/图片(image)的内容信息(content，比如句意是：“我有一只猫”，图片内容是：“有几辆车，几个人等等”)。

2024-05-31 12:11:35 1057

原创 Diffusion model经典论文

Diffusion model现状：比GAN训练更稳定，生成多样性更好，但生成效果不如GAN。作者因此思考，是否可以通过优化网络结构，在真实度和多样性上进行平衡，让生成效果变好。如何在有限计算资源的前提下提升Diffusion model的生成效果。

2024-03-07 11:28:52 1234

原创 Stable Diffusion条件控制生成---相关论文集合

新增一个cross-attention layers，结果与text prompt的cross-attention layers结果相加后输入网络，只需要训练Wk, Wv两个参数。如何将图片作为prompt输入网络，并无需更改开源模型参数。

2024-01-15 11:32:56 1485

原创透过结构看表达

有什么变化？怎么做？

2023-10-13 15:55:26 136

原创文生图模型之Stable Diffusion

tokenizer最大长度为77（CLIP训练时所采用的设置），当输入text的tokens数量超过77后，将进行截断，如果不足则进行paddings，这样将保证无论输入任何长度的文本（甚至是空文本）都得到77x768大小的特征。text condition将通过CrossAttention模块嵌入进来，此时Attention的query是UNet的中间特征，而key和value则是text embeddings。

2023-08-25 15:42:28 2367

原创卡尔曼滤波

1. 初见Kalman假设我养了一只猪：一周前，这只猪的体重是46±0.5kg。注意，在这里我用了±0.5，表示其实我对这只猪一周前的体重并不是那么确定的，也就是说，46kg这个体重有0.5kg的误差。现在，我又养了这只猪一个星期。那么我想要知道它一个星期之后多重，又大概有多少的误差？为了得到一周后的体重，我有两种方法：一是根据我多年的养猪经验得到的猪体重公式推求出

2023-08-15 17:16:12 149

原创 Diffusers学习总结

Diffusers代码：https://github.com/huggingface/diffusersDiffusers使用指南：https://huggingface.co/docs/diffusers/index

2023-07-05 18:09:02 335

原创 AIGC学习资料总结

详细讲述了DALL·E的基本原理，DALL-E1相当于 VQVAE2+GPT（把pixel CNN换成了GPT），DALL-E2 是GLIDE + CLIP。视频还大篇幅讲述基础知识：AE，VAE，VQVAE，GAN，diffusion model的区别，着重讲述diffusion model的原理，还有classifier guided diffusion和classifier free diffusion。

2023-04-20 11:12:38 575

转载 Progressive Growing/StyleGAN/StyleGAN2

stylegan家族

2022-09-05 19:52:22 244

原创李宏毅2021 ML课程GAN部分学习

前言学习资源：https://speech.ee.ntu.edu.tw/~hylee/ml/2021-spring.php一、初识GANGAN的基本结构：为什么要输入高斯分布空间的随机采样z，是因为现实场景中要生成的内容丰富多样，相对于用z为GAN的生成内容指定了其中一种，如下图游戏场景中向左/由转向的选择：二、使用步骤1.引入库代码如下（示例）：i.........................

2022-04-22 15:37:55 3829

原创 2021问题总结

1. 堆与栈栈(Stack)是操作系统在建立某个进程时或者线程（在支持多线程的操作系统中是线程）为这个线程建立的存储区域，该区域具有FIFO的特性，在编译的时候可以指定需要的Stack的大小。　　　　堆（Heap)是应用程序在运行的时候请求操作系统分配给自己内存，一般是申请/给予的过程，C/C++分别用malloc/New请求分配Heap，用free/delete销毁内存。区别：堆与栈实际上是操作系统对进程占用的内存空间的两种管理方式，主要有如下几种区别：（1）管理方式不同。栈由操作系统自动分配

2021-04-09 11:26:50 200

原创强化学习系列--CS 294-112 《深度强化学习课程》

lec 1 课程介绍及概要所有监督学习问题都可以被重新表述成一个增强学习问题，即便这不见得是一个好主意。如将输入定义为观测，输出定义为行动，损失函数定义为奖励。2.一个基于深度增强学习的机器人控制系统如下图。机器人摄像头为深度神经网络提供像素图像输入，深度神经网络提供马达扭矩级别的控制输出，形成一个序贯决策循环。神经网络的前几层卷积层可以认为是视觉皮层，而后几层全连接层认为是马达皮层，类似...

2020-05-03 21:28:51 668

原创 k 折交叉验证

1. 原理步骤：第一步，不重复抽样将原始数据随机分为 k 份。第二步，每一次挑选其中 1 份作为测试集，剩余 k-1 份作为训练集用于模型训练。第三步，重复第二步 k 次，这样每个子集都有一次机会作为测试集，其余机会作为训练集。在每个训练集上训练后得到一个模型，用这个模型在相应的测试集上测试，计算并保存模型的评估指标，第四步，计算 k 组测试结果的平均值作为模型精度的估计，并作为当前...

2019-07-25 22:48:36 2415

原创深度学习最全优化方法总结

Adam算法：原理：mmm与vvv分别为梯度ggg的一阶矩和二阶矩估计，E(m)=E(g),E(v)=E(g2),E(m)=E(g),E(v)=E(g^2),E(m)=E(g),E(v)=E(g2),算法优点：结合了Adagrad善于处理稀疏梯度和RMSprop善于处理非平稳目标的优点对内存需求较小，计算量较小为不同的参数计算不同的自适应学习率也适用于大多非凸优化 - 适用于大...

2019-07-25 22:13:33 254

原创 Batch Normalization

算法解决的问题：Internal Covariate Shift：训练时每个batch数据的分布可能会有所差异，原理：如图所示，训练时uuu,ooo为当前batch的均值和方差，并通过一阶矩的形式计算整个训练集的均值和方差，yyy,BBB根据decay参数进行更新学习的参数；推断时uuu,ooo为训练时计算好的整个训练集的均值和方差，yyy,BBB为训练时计算好的参数。参考网站：te...

2019-07-25 21:07:53 169

原创 Yolo3+mobileNet

1.Yolo3学习文章地址：https://pjreddie.com/media/files/papers/YOLOv3.pdf

2019-06-28 21:58:28 5365 1

原创目标检测之RCNN系列算法学习

目标检测之RCNN系列算法学习1. RCNN1.1 解决的问题1.1.1 image size warp1.1.2 训练数据不足1.2 论文结论1.2.1 数据相关性1. RCNN标题Rich feature hierarchies for accurate object detection and semantic segmentation Tech report作者团队...

2018-10-05 22:36:12 421

原创深度学习模型网络学习之分类网络学习

VGG

2018-08-11 21:56:01 1009

原创深度学习网络训练技巧

1. 数据增强1.1 海康威视研究院ImageNet2016：第一，对颜色的数据增强，包括色彩的饱和度、亮度和对比度等方面，主要从Facebook的代码里改过来的。第二，PCA Jittering，最早是由Alex在他2012年赢得ImageNet竞赛的那篇NIPS中提出来的. 我们首先按照RGB三个颜色通道计算了均值和标准差，对网络的输入数据进行规范化，随后我们在整个训练集上计...

2018-07-19 11:59:40 2002

原创背景分割算法评测标准研究

## 基本概念：#### IOU: ## VOC数据集：#### 1. segmentation accuracy：__计算方式：__ segmentation accuracy = true positives /(true positives+ false positives + false...

2018-06-23 16:02:15 1206

原创分割数据边缘优化算法

1. 边缘提取目前主流的边缘提取算法有Sobel，Laplacian,Canny,Prewitt等，利用的均是像素层次的梯度信息，由于canny算子采用高阈值筛选，低阈值连接的策略，所以大大抑制了噪声引起的伪边缘，边缘较为完整。Canny边缘检测算法步骤： step1:用高斯滤波器平滑图象； step2:用一阶偏导的有限差分来计算梯度的幅值和方...

2018-06-23 15:59:49 4941

原创代码经验小结

注意事项：牢牢记住，动手写代码前，想好代码的架构，画出系统流程图，这远比早动手写代码高效！遇到bug时，先把所有可能列出来，依次做一遍分析，不要纠结于一个地方！代码规范问题：使用try…except时要有明确的错误输出，以方便未来的debug，否则宁愿不要加！尽量避免使用Magic Number，并做好注释！程序的工作目录定义在程序的根目录上！注意在程序关键位置，难理...

2018-05-26 10:50:54 682

原创深度学习模型网络学习之移动网络

1. SquezeeNet论文地址： SQUEEZENET: ALEXNET-LEVEL ACCURACY WITH 50X FEWER PARAMETERS AND &amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;lt;0.5MB MODEL SIZE1.1 论文导读小型网络模型的优点：有利于分布式训练，减少数据交换量模型变小，对客户端的更新更便捷更容易在FPG

2018-04-06 18:51:48 906

原创 deeplearning.ai之神经网络和深度学习

1. Logistic Regression Cost Function: 2. Vectorization 尽量使用向量化代替循环以提高执行效率！**Tips of Numpy:** 使用python/numpy时，在定义数据矩阵时，最好明确指定矩阵的行列数，否则可能会因python的广播特性出现一些不可预料的bug!3. Why deep representations用简单的L

2017-12-17 22:28:45 633

原创 deeplearning.ai之卷积神经网络

1. 卷积层的优点： 2. 经典网络架构介绍LeNet-5 池化层为均值，而目前主流为max激活函数为sigmod或者tanh，而目前主流为reluAlexNet Local Response Normalization(LRN)：认为网络不需要那么多高激活神经元，因此将某些位置进行归一化处理（即对某点所有通道上的值进行归一化）。VGG-19 VGG网络的特征是简单，只使用3

2017-12-09 23:04:29 418

原创隐马尔科夫模型（HMM）

人类学习的任务是从资料中获得知识，而机器学习的任务是让计算机从数据中获得模型。那模型又是什么呢？回想一下机器学习中比较基础的线性回归模型 y=∑iwixiy=∑_iw_ix_i，我们最终是希望计算机能够从已有的数据中或者一组最合适的参数 wi，因为一旦 wi 被确定，那么线性回归的模型也就确定了。同样，面对HMM，我们最终的目的也是要获得能够用来确定（数学）模型的各个参数。HMM概念假设我手里

2017-11-24 17:05:41 377

原创 YOLO算法的调整与优化

一. 代码篇1.1 引入const引用形参改善代码效率举个栗子：在convolutional_layer.c文件的convolutional_out_height函数中：/*** 根据输入图像的高度(h)，两边补0的个数(pad)，卷积核尺寸(size)以及跨度(stride)计算输出的特征图的高度** 输入：l 卷积层，包含该卷积层的所有参数，实际这里没有必要输入整个l，因为只需

2017-11-21 17:47:55 9466

原创 CS231n学习笔记--Assignment2/3

1. Assignment21.1 全连接神经网络深度学习小白——CS231n Assignment2(FC) 深度学习笔记8：softmax层的实现1.2 卷积神经网络深度学习小白——CS231n Assignment2（CNN）pooling mean max 前向和反向传播对于mean pooling，真的是好简单：假设pooling的窗大小是2x2, 在forward的时候啊，就是在前面卷积

2017-11-11 23:28:34 463

原创 CS231n学习笔记--16. Adversarial Examples and Adversarial Training

Overview• What are adversarial examples? • Why do they happen? • How can they be used to compromise machine learning systems? • What are the defenses? • How to use adversarial examples to improve

2017-11-11 18:46:56 5732

原创 Yolo2代码解析

1. 激活层/*计算激活函数对加权输入的导数，并乘以delta，得到当前层最终的delta（敏感度图）输入： x 当前层的所有输出n l.output的维度，即为l.batch * l.out_c * l.out_w * l.out_h（包含整个batch的）ACTIVATION 激活函数类型delta 当前层敏感度图（与当前层输出x维度一样）说明1：该函数不但计算

2017-11-10 11:44:36 5563

原创 CS231n学习笔记--15. Efficient Methods and Hardware for Deep Learning

Agenda Hardware 101: the Family Hardware 101: Number Representation Hardware 101: Number Representation 1. Algorithms for Efficient Inference1.1 Pruning Neural Networks Iteratively Retrain to Re

2017-11-08 23:36:43 838

原创 CS231n学习笔记--14. Reinforcement Learning

1. What is Reinforcement Learning概述：举个栗子：再举一个： 2. Markov Decision ProcessMathematical formulation of the RL problemMarkov property: Current state completely characterises the state of the world

2017-11-06 23:00:16 653

原创 CS231n学习笔记--13. Generative Models

1. Unsupervised LearningSupervised vs Unsupervised Learning:2. Generative Models概述：Generative Models的作用：Generative Models的分类：3. PixelRNN and PixelCNN基本原理：PixelRNN：PixelCNN：Training is faster than Pixel

2017-11-04 11:17:39 702

支持向量机通俗导论--July

作者：July 。致谢：pluskid、白石、JerryLead。说明：本文最初写于2012年6月，而后不断反反复复修改&优化，修改次数达上百次，最后修改于2016年11月。声明：本文于2012年便早已附上所有参考链接，并注明是篇“学习笔记”，且写明具体参考了pluskid等人的文章。目录支持向量机通俗导论理解SVM的三层境界前言第一层了解SVM 1分类标准的起源Logistic回归 2线性分类的一个例子 3函数间隔Functional margin与几何间隔Geometrical margin 4最大间隔分类器Maximum Margin Classifier的定义第二层深入SVM 1从线性可分到线性不可分 11从原始问题到对偶问题的求解 12KKT条件 13对偶问题求解的3个步骤 15线性不可分的情况 2核函数Kernel 21特征空间的隐式映射核函数 22核函数如何处理非线性数据 23几个核函数 24核函数的本质 3使用松弛变量处理 outliers 方法第三层证明SVM 1线性学习器 11感知机算法 2非线性学习器 21Mercer定理 3损失函数 4最小二乘法 41什么是最小二乘法 42最小二乘法的解法 5SMO算法 51SMO算法的推导 52SMO算法的步骤 53SMO算法的实现 6SVM的应用 61文本分类读者评论参考文献及推荐阅读后记

2017-09-14

斯坦福大学的手写字符图像库

THE MNIST DATABASE of handwritten digits 训练图像60000幅，测试图像10000幅，图像大小为20*20；存储图像及其对应类别的xml文件，opencv读写形式如下：

2015-07-13

MFC中视频流内存泄漏问题

2014-11-28

TA创建的收藏夹 TA关注的收藏夹

TA关注的人