自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Kuekua的专栏

顺其自然,为所当为

  • 博客(68)
  • 资源 (3)
  • 问答 (1)
  • 收藏
  • 关注

原创 热门文生图模型

中文文生图能力,进一步提升文生图质量。

2024-07-12 11:37:22 196

原创 生成图质量评价

如何对生成图质量进行算法评价,以优化图片质量,提升模型生成能力。

2024-07-09 12:26:50 303

原创 Vision Transformer

以上是self-attention的原理,但是还有一个问题是:现在的self-attention中没有位置的信息,一个单词向量的“近在咫尺”位置的单词向量和“远在天涯”位置的单词向量效果是一样的,没有表示位置的信息(No position information in self attention)。k,v来自Transformer Encoder的输出,所以可以看做句子(Sequence)/图片(image)的内容信息(content,比如句意是:“我有一只猫”,图片内容是:“有几辆车,几个人等等”)。

2024-05-31 12:11:35 952

原创 Diffusion model经典论文

Diffusion model现状:比GAN训练更稳定,生成多样性更好,但生成效果不如GAN。作者因此思考,是否可以通过优化网络结构,在真实度和多样性上进行平衡,让生成效果变好。如何在有限计算资源的前提下提升Diffusion model的生成效果。

2024-03-07 11:28:52 519

原创 Stable Diffusion条件控制生成---相关论文集合

新增一个cross-attention layers,结果与text prompt的cross-attention layers结果相加后输入网络,只需要训练Wk, Wv两个参数。如何将图片作为prompt输入网络,并无需更改开源模型参数。

2024-01-15 11:32:56 688

原创 透过结构看表达

有什么变化?怎么做?

2023-10-13 15:55:26 82

原创 文生图模型之Stable Diffusion

tokenizer最大长度为77(CLIP训练时所采用的设置),当输入text的tokens数量超过77后,将进行截断,如果不足则进行paddings,这样将保证无论输入任何长度的文本(甚至是空文本)都得到77x768大小的特征。text condition将通过CrossAttention模块嵌入进来,此时Attention的query是UNet的中间特征,而key和value则是text embeddings。

2023-08-25 15:42:28 1685

原创 卡尔曼滤波

1. 初见Kalman假设我养了一只猪: 一周前,这只猪的体重是46±0.5kg。注意,在这里我用了±0.5,表示其实我对这只猪一周前的体重并不是那么确定的,也就是说,46kg这个体重有0.5kg的误差。现在,我又养了这只猪一个星期。那么我想要知道它一个星期之后多重,又大概有多少的误差? 为了得到一周后的体重,我有两种方法:一是根据我多年的养猪经验得到的猪体重公式推求出

2023-08-15 17:16:12 111

原创 Diffusers学习总结

Diffusers代码:https://github.com/huggingface/diffusersDiffusers使用指南:https://huggingface.co/docs/diffusers/index

2023-07-05 18:09:02 239

原创 AIGC学习资料总结

详细讲述了DALL·E的基本原理,DALL-E1相当于 VQVAE2+GPT(把pixel CNN换成了GPT),DALL-E2 是GLIDE + CLIP。视频还大篇幅讲述基础知识:AE,VAE,VQVAE,GAN,diffusion model的区别,着重讲述diffusion model的原理,还有classifier guided diffusion和classifier free diffusion。

2023-04-20 11:12:38 402

转载 Progressive Growing/StyleGAN/StyleGAN2

stylegan家族

2022-09-05 19:52:22 185

原创 李宏毅2021 ML课程GAN部分学习

前言学习资源:https://speech.ee.ntu.edu.tw/~hylee/ml/2021-spring.php一、初识GANGAN的基本结构:为什么要输入高斯分布空间的随机采样z,是因为现实场景中要生成的内容丰富多样,相对于用z为GAN的生成内容指定了其中一种,如下图游戏场景中向左/由转向的选择:二、使用步骤1.引入库代码如下(示例):i.........................

2022-04-22 15:37:55 3724

原创 2021问题总结

1. 堆与栈栈(Stack)是操作系统在建立某个进程时或者线程(在支持多线程的操作系统中是线程)为这个线程建立的存储区域,该区域具有FIFO的特性,在编译的时候可以指定需要的Stack的大小。    堆(Heap)是应用程序在运行的时候请求操作系统分配给自己内存,一般是申请/给予的过程,C/C++分别用malloc/New请求分配Heap,用free/delete销毁内存。区别:堆与栈实际上是操作系统对进程占用的内存空间的两种管理方式,主要有如下几种区别:(1)管理方式不同。栈由操作系统自动分配

2021-04-09 11:26:50 140

原创 强化学习系列--CS 294-112 《深度强化学习课程》

lec 1 课程介绍及概要所有监督学习问题都可以被重新表述成一个增强学习问题,即便这不见得是一个好主意。如将输入定义为观测,输出定义为行动,损失函数定义为奖励。2.一个基于深度增强学习的机器人控制系统如下图。机器人摄像头为深度神经网络提供像素图像输入,深度神经网络提供马达扭矩级别的控制输出,形成一个序贯决策循环。神经网络的前几层卷积层可以认为是视觉皮层,而后几层全连接层认为是马达皮层,类似...

2020-05-03 21:28:51 567

原创 k 折交叉验证

1. 原理步骤:第一步,不重复抽样将原始数据随机分为 k 份。第二步,每一次挑选其中 1 份作为测试集,剩余 k-1 份作为训练集用于模型训练。第三步,重复第二步 k 次,这样每个子集都有一次机会作为测试集,其余机会作为训练集。 在每个训练集上训练后得到一个模型,用这个模型在相应的测试集上测试,计算并保存模型的评估指标,第四步,计算 k 组测试结果的平均值作为模型精度的估计,并作为当前...

2019-07-25 22:48:36 2267

原创 深度学习最全优化方法总结

Adam算法:原理:mmm与vvv分别为梯度ggg的一阶矩和二阶矩估计,E(m)=E(g),E(v)=E(g2),E(m)=E(g),E(v)=E(g^2),E(m)=E(g),E(v)=E(g2),算法优点:结合了Adagrad善于处理稀疏梯度和RMSprop善于处理非平稳目标的优点对内存需求较小 ,计算量较小为不同的参数计算不同的自适应学习率也适用于大多非凸优化 - 适用于大...

2019-07-25 22:13:33 196

原创 Batch Normalization

算法解决的问题:Internal Covariate Shift:训练时每个batch数据的分布可能会有所差异,原理:如图所示,训练时uuu,ooo为当前batch的均值和方差,并通过一阶矩的形式计算整个训练集的均值和方差,yyy,BBB根据decay参数进行更新学习的参数;推断时uuu,ooo为训练时计算好的整个训练集的均值和方差,yyy,BBB为训练时计算好的参数。参考网站:te...

2019-07-25 21:07:53 140

原创 Yolo3+mobileNet

1.Yolo3学习文章地址:https://pjreddie.com/media/files/papers/YOLOv3.pdf

2019-06-28 21:58:28 5259 1

原创 目标检测之RCNN系列算法学习

目标检测之RCNN系列算法学习1. RCNN1.1 解决的问题1.1.1 image size warp1.1.2 训练数据不足1.2 论文结论1.2.1 数据相关性1. RCNN标题Rich feature hierarchies for accurate object detection and semantic segmentation Tech report作者团队...

2018-10-05 22:36:12 370

原创 深度学习模型网络学习之分类网络学习

VGG

2018-08-11 21:56:01 949

原创 深度学习网络训练技巧

1. 数据增强1.1 海康威视研究院ImageNet2016:第一,对颜色的数据增强,包括色彩的饱和度、亮度和对比度等方面,主要从Facebook的代码里改过来的。 第二,PCA Jittering,最早是由Alex在他2012年赢得ImageNet竞赛的那篇NIPS中提出来的. 我们首先按照RGB三个颜色通道计算了均值和标准差,对网络的输入数据进行规范化,随后我们在整个训练集上计...

2018-07-19 11:59:40 1898

原创 背景分割算法评测标准研究

## 基本概念:#### IOU: ## VOC数据集:#### 1. segmentation accuracy:__计算方式:__ segmentation accuracy = true positives /(true positives+ false positives + false...

2018-06-23 16:02:15 1096

原创 分割数据边缘优化算法

1. 边缘提取目前主流的边缘提取算法有Sobel,Laplacian,Canny,Prewitt等,利用的均是像素层次的梯度信息,由于canny算子采用高阈值筛选,低阈值连接的策略,所以大大抑制了噪声引起的伪边缘,边缘较为完整。Canny边缘检测算法步骤 : step1:用高斯滤波器平滑图象; step2:用一阶偏导的有限差分来计算梯度的幅值和方...

2018-06-23 15:59:49 4682

原创 代码经验小结

注意事项:牢牢记住,动手写代码前,想好代码的架构,画出系统流程图,这远比早动手写代码高效!遇到bug时,先把所有可能列出来,依次做一遍分析,不要纠结于一个地方!代码规范问题:使用try…except时要有明确的错误输出,以方便未来的debug,否则宁愿不要加!尽量避免使用Magic Number,并做好注释!程序的工作目录定义在程序的根目录上!注意在程序关键位置,难理...

2018-05-26 10:50:54 623

原创 深度学习模型网络学习之移动网络

1. SquezeeNet论文地址: SQUEEZENET: ALEXNET-LEVEL ACCURACY WITH 50X FEWER PARAMETERS AND <0.5MB MODEL SIZE1.1 论文导读小型网络模型的优点:有利于分布式训练,减少数据交换量模型变小,对客户端的更新更便捷更容易在FPG

2018-04-06 18:51:48 823

原创 deeplearning.ai之神经网络和深度学习

1. Logistic Regression Cost Function: 2. Vectorization 尽量使用向量化代替循环以提高执行效率!**Tips of Numpy:** 使用python/numpy时,在定义数据矩阵时,最好明确指定矩阵的行列数,否则可能会因python的广播特性出现一些不可预料的bug!3. Why deep representations用简单的L

2017-12-17 22:28:45 557

原创 deeplearning.ai之卷积神经网络

1. 卷积层的优点: 2. 经典网络架构介绍LeNet-5 池化层为均值,而目前主流为max激活函数为sigmod或者tanh,而目前主流为reluAlexNet Local Response Normalization(LRN): 认为网络不需要那么多高激活神经元,因此将某些位置进行归一化处理(即对某点所有通道上的值进行归一化)。VGG-19 VGG网络的特征是简单,只使用3

2017-12-09 23:04:29 368

原创 隐马尔科夫模型(HMM)

人类学习的任务是从资料中获得知识,而机器学习的任务是让计算机从数据中获得模型。那模型又是什么呢?回想一下机器学习中比较基础的线性回归模型 y=∑iwixiy=∑_iw_ix_i,我们最终是希望计算机能够从已有的数据中或者一组最合适的参数 wi,因为一旦 wi 被确定,那么线性回归的模型也就确定了。同样,面对HMM,我们最终的目的也是要获得能够用来确定(数学)模型的各个参数。HMM概念 假设我手里

2017-11-24 17:05:41 351

原创 YOLO算法的调整与优化

一. 代码篇1.1 引入const引用形参改善代码效率举个栗子: 在convolutional_layer.c文件的convolutional_out_height函数中:/*** 根据输入图像的高度(h),两边补0的个数(pad),卷积核尺寸(size)以及跨度(stride)计算输出的特征图的高度** 输入:l 卷积层,包含该卷积层的所有参数,实际这里没有必要输入整个l,因为只需

2017-11-21 17:47:55 9200

原创 CS231n学习笔记--Assignment2/3

1. Assignment21.1 全连接神经网络深度学习小白——CS231n Assignment2(FC) 深度学习笔记8:softmax层的实现1.2 卷积神经网络深度学习小白——CS231n Assignment2(CNN)pooling mean max 前向和反向传播对于mean pooling,真的是好简单:假设pooling的窗大小是2x2, 在forward的时候啊,就是在前面卷积

2017-11-11 23:28:34 419

原创 CS231n学习笔记--16. Adversarial Examples and Adversarial Training

Overview• What are adversarial examples? • Why do they happen? • How can they be used to compromise machine learning systems? • What are the defenses? • How to use adversarial examples to improve

2017-11-11 18:46:56 5634

原创 Yolo2代码解析

1. 激活层/*计算激活函数对加权输入的导数,并乘以delta,得到当前层最终的delta(敏感度图)输入: x 当前层的所有输出n l.output的维度,即为l.batch * l.out_c * l.out_w * l.out_h(包含整个batch的)ACTIVATION 激活函数类型delta 当前层敏感度图(与当前层输出x维度一样)说明1: 该函数不但计算

2017-11-10 11:44:36 5459

原创 CS231n学习笔记--15. Efficient Methods and Hardware for Deep Learning

Agenda Hardware 101: the Family Hardware 101: Number Representation Hardware 101: Number Representation 1. Algorithms for Efficient Inference1.1 Pruning Neural Networks Iteratively Retrain to Re

2017-11-08 23:36:43 783

原创 CS231n学习笔记--14. Reinforcement Learning

1. What is Reinforcement Learning概述: 举个栗子: 再举一个: 2. Markov Decision ProcessMathematical formulation of the RL problemMarkov property: Current state completely characterises the state of the world

2017-11-06 23:00:16 598

原创 CS231n学习笔记--13. Generative Models

1. Unsupervised LearningSupervised vs Unsupervised Learning:2. Generative Models概述:Generative Models的作用:Generative Models的分类:3. PixelRNN and PixelCNN基本原理:PixelRNN:PixelCNN:Training is faster than Pixel

2017-11-04 11:17:39 641

原创 Kalman Filter : 理解卡尔曼滤波的三重境界

第一重:初见Kalman假设我养了一只猪: 一周前,这只猪的体重是46±0.5kg。注意,在这里我用了±0.5,表示其实我对这只猪一周前的体重并不是那么确定的,也就是说,46kg这个体重有0.5kg的误差。现在,我又养了这只猪一个星期。那么我想要知道它一个星期之后多重,又大概有多少的误差? 为了得到一周后的体重,我有两种方法:一是根据我多年的养猪经验得到的猪体重公式推求出一个大概的值,另一个

2017-10-19 22:20:57 79160 16

原创 YOLO算法学习及训练

1. YOLO2代码在window下的训练代码: https://github.com/AlexeyAB/darknet原始代码: https://pjreddie.com/darknet/Tips: 1. 虽然要求OPENCV版本为2.4.13或2.4.3以上,VS2015,但实际上改一下代码中opencv和VS的配置信息,低版本也可以,本人版本opencv2.4.10 + VS2013。

2017-10-17 17:54:49 12889

原创 Deep Learning读书笔记8--应用

1. 大规模深度学习深度学习的基本思想基于联结主义:尽管机器学习模型中单个生物性的神经元或者说是单个特征不是智能的,但是大量的神经元或者特征作用在一起往往能够表现出智能。 在训练过程中,数据并行某种程度上来说更加困难。 对于随机梯度下降的单步来说,我们可以增加小批量的大小,但是从优化性能的角度来说,我们得到的回报通常并不会线性增长。 使用多个机器并行地计算多个梯度下降步骤是一个更好的选择。 不幸的是

2017-10-17 11:40:13 499

转载 数据处理——One-Hot Encoding

一、One-Hot EncodingOne-Hot编码,又称为一位有效编码,主要是采用位状态寄存器来对个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。在实际的机器学习的应用任务中,特征有时候并不总是连续值,有可能是一些分类值,如性别可分为“male”和“female”。在机器学习任务中,对于这样的特征,通常我们需要对其进行特征数字化,如下面的例子:有如下三个特征属性:

2017-10-17 10:30:11 586

原创 CS231n学习笔记--12.Visualizing and Understanding

What’s going on inside ConvNets?1. First Layer: Visualize Filters卷积网络第一层特征以原图像的特征清晰的展现出来:但是后续层的输出无法直接理解:2. Last Layer最后一层(全连接层)以最邻近算法得出物体类别:用降维算法得出结果:人脸检测特征激活值示例:遮挡实验,用于检测图像某一部分影响识别结果的程度,右图中,像素越红影响越小,越

2017-10-15 22:37:00 904

斯坦福大学的手写字符图像库

THE MNIST DATABASE of handwritten digits 训练图像60000幅,测试图像10000幅,图像大小为20*20; 存储图像及其对应类别的xml文件,opencv读写形式如下:

2015-07-13

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除