深度学习
文章平均质量分 95
kabuto_hui
渡己亦渡人
展开
-
【大模型系列】PLLaVA(2024.04)
在空间维度上进行池化会产生有益的效果,而在时间维度上进行池化则会产生性能下降。原创 2024-08-24 13:10:57 · 803 阅读 · 0 评论 -
【大模型系列】Flash-VStream(2024.06)
Flash-VStream是由来自于清华和字节的研究团队开发的一个视频问答模型(VideoQA)通过设计一种名为STAR的内存机制来实现在有限计算资源的前提下,能处理极长的视频流;开源了一个新的VideoQA Benchmark:VStream-QA Benchmark空间记忆容纳短期使用的最新的且详细的空间信息,并以FIFO队列的形式实现。原创 2024-08-24 12:46:03 · 880 阅读 · 0 评论 -
【炼金术士】BatchSize对网络训练的影响
首先我们设置一个非常小的初始学习率,比如1e-5,然后在每个batch之后都更新网络,同时增加学习率,统计每个batch计算出的loss。最后我们可以描绘出学习的变化曲线和loss的变化曲线,从中就能够发现最好的学习率。针对BatchSize越大,网络训练速度快这条很好理解,在相同的单位时间内,一次训练的数据越多,网络训练的速度也就越快。初始的学习率肯定是有一个最优值的,过大则导致模型不收敛,过小则导致模型收敛特别慢或者无法学习,下图展示了不同大小的学习率下模型收敛情况的可能性。原创 2024-04-25 00:03:39 · 1872 阅读 · 0 评论 -
YOLO系列汇总 | YOLOv1~YOLOv9持续更新
而上图(e)中,在使用lead head和auxiliary head一起优化模型的时候,auxiliary head的正样本是较为“粗糙的“,主要是通过放宽正样本分配过程的约束来获得更多的正样本。针对每一个gt,其中s是每个anchor点对应的gt类别的分类置信度,u是每个anchor点对应预测的目标框与gt的IoU,a,b表示外部配置的指数,两者相乘就可以衡量对齐程度alignment metrics。,重新定义了距离损失,有效降低了回归的自由度,加快网络收敛,进一步提升了回归精度。原创 2024-04-13 18:06:59 · 955 阅读 · 0 评论 -
【大模型系列】根据文本检索目标(DINO/DINOv2/GroundingDINO)
DINO 中最核心的数据采样策略便是图像裁剪,这也是自监督学习领域应用非常广泛的主策略之一。原创 2024-03-09 17:45:14 · 6016 阅读 · 5 评论 -
【大模型系列】图文对齐(CLIP/TinyCLIP/GLIP)
给定待编辑的真实图像,我们首先使用StyleGAN inversion方法得到其隐编码,然后我们的头发映射器根据隐编码和条件输入(发型条件、发色条件)预测隐编码相应的变化,最后修改后的隐编码将被送入StyleGAN产生对应的头发编辑后的图像。分成G个阶段进行,每个阶段在前Lm step里做亲和蒸馏和继承训练(根据step更新当前稀疏度p,然后计算亲和力蒸馏损失,然后当前稀疏度p和目标稀疏q计算稀疏损失,然后更新mask和权重),然后将不重要权重移除,Lm后续的训练用亲和训练。原创 2024-03-09 14:10:29 · 3354 阅读 · 0 评论 -
手动实现打乱训练集并生成一个batch的简单方法
在训练一个深度学习模型之前,我们会将数据集划分为训练集、验证集和测试集。在训练的时候,我们往往会将训练集打乱,划分成多个batch来进行训练。一般情况下,我们可以使用tf.data.Dataset或者tf.TFRecordReader()来实现。如果不使用这两个方法,我们利用numpy也可以实现这个功能。 下面我将定义一个类,来简单实现这个功能:import numpy as...原创 2019-12-02 11:49:01 · 1921 阅读 · 0 评论 -
【论文阅读】图像超分辨率(ISR) - RDN, SRGAN, ESRGAN
目录1.RDN(Residual Dense Network)残差密集网络【2018】1.1【Note】1.2【参数细节】1.3【超参数】2.SRGAN【2017】2.1【Note】3.ESRGAN【2018】3.1 与SRGAN中的生成器区别是做了以下的两个改进:3.2 与SRGAN中的判别器区别是做了以下的改进:3.3 关于感知损失(Perceptual...原创 2019-10-18 21:29:51 · 3473 阅读 · 1 评论 -
计算FLOPs和Parameters数量
在卷积中要计算的parameter数量:输入: 【H_in, W_in, C_in】卷积核大小: 【K_h, K_w】输出: 【H_out, W_out, C_out】parameters = (K_h * K_w * C_in)*C_out + C_out(偏置)FLOPs是指: floatin...原创 2019-09-06 11:34:08 · 654 阅读 · 0 评论 -
关于XGBoost常问的一些问题的总结
l Xgboost和GBDT有什么异同? 传统GBDT以CART作为基分类器,xgboost还支持线性分类器,这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归(分类问题)或者线性回归(回归问题)。 传统GBDT在优化时只用到一阶导数信息,xgboost则对代价函数进行了二阶泰勒展开,同时用到了一阶和二阶导数。顺便提一下,xgboost工具支持自定义代价函数,只要函数可...原创 2019-09-06 11:31:41 · 1379 阅读 · 0 评论 -
ROC-AUC的编程实现
之前笔试的时候看到的问题,通常我们都知道AUC是ROC去下面覆盖的面积,计算的方式也是计算每个小梯形的面积然后叠加出来的。后来我查阅了一下,发现了两个更为简单的方法,所以在此记录一下:AUC的物理意义是任取一个正例和任取一个负例,正例排序在负例之前的概率。方法1:其中M是正样本的个数, N是负样本的个数。方法2:对于相同的prob,取一半。 具体操作...原创 2019-09-06 11:28:00 · 844 阅读 · 0 评论 -
tf.data.Dataset与tfrecord学习笔记
目录1.tf.data.Dataset2.tfrecord2.1 使用tfrecord的原因2.2 tfrecord的写入2.3 tfrecord的读取3.两种方式的区别参考资料:1.tf.data.Dataset# 从tensor中获取数据dataset = tf.data.Dataset.from_tensor_slices(img_paths)...原创 2019-09-06 11:19:51 · 3451 阅读 · 0 评论 -
TensorFlow学习笔记(3)-TensorBoard学习笔记
文章目录1. 命名空间2. 如何开启TensorBoard3. 一个简单的神经网络应用TensorBoard4. 其他summary函数参考资料 Tensorflow提供了一个可视化工具TensorBoard。TensorBoard可以有效的展示TensorFlow在运行过程中的计算图、各种指标随时间的变化趋势以及训练中使用到的图像等信息。1. 命名空间 在TensorFlow的默认视图...原创 2019-01-21 17:18:02 · 462 阅读 · 0 评论 -
TensorFlow学习笔记(2)-构建神经网络及其可视化
文章目录1. 添加隐藏层2. 生成实验数据3. 定义网络结构4. 可视化4.1 loss曲线4.2 显示当前训练曲线参考资料 tensorflow给我的感觉就是定义了一系列的计算方法和流程,但是网络的构建还是需要自己去定义的。比如隐藏层的个数,隐藏层的神经元的数量等等。所以,首先定义一个添加隐藏层的函数。1. 添加隐藏层import tensorflow as tfdef add_la...原创 2019-01-16 10:49:55 · 861 阅读 · 1 评论 -
经典论文阅读(2)-VGGNet
经典论文阅读(2)-VGGNet文章目录经典论文阅读(2)-VGGNet0. 前言1. VGGNet与AlexNet2. 关于文章对收敛快的解释3. 关于使用3*3的卷积核4. 关于模型训练5. VGGNet的实现参考资料0. 前言 VGGNet是牛津大学Visual Geometry Group和Deep Mind共同开发的一种深度卷积网络。他们探索了卷积神经网络深度与其性能之间的关系。...原创 2019-03-25 22:43:58 · 823 阅读 · 0 评论 -
经典论文阅读(1)-AlexNet
0. 前言 AlexNet是深度学习领军任务Geoffrey Hinton教授的学生Alex Krizhevsky提出来的。AlexNet在ILSVRC 2012竞赛中以压倒性的成绩获得了冠军。AlexNet是一个具有突破性意义的模型,在他之前,神经网络和深度学习都陷入了长时间的瓶颈期。AlexNet一经问世就统治了整个图像识别领域。直至今日,AlexNet也依然是效果出色且具有启发意义的网络...原创 2019-03-22 15:26:51 · 2184 阅读 · 0 评论 -
经典论文阅读(3)-GoogLeNet-InceptionV1及其tensorflow实现
文章目录0. 前言1. Motivation2. Inception结构3. GoogLeNet-InceptionV14. InceptionV1的tensorflow实现参考资料0. 前言 GoogLeNet是Google开发的一个卷积神经网络模型,获得了ILSVRC2014的冠军。GoogLeNet增加了模型的宽度和深度,它的深度有22层,但是参数却之后500万个,AlexNet是它的...原创 2019-04-02 17:29:51 · 1315 阅读 · 0 评论 -
经典论文阅读(4)-InceptionV2
经典论文阅读(4)-InceptionV2及TensorFlow实现文章目录经典论文阅读(4)-InceptionV2及TensorFlow实现0. 前言1. 使用mini-batch进行批量标准化2. mini-BatchNormalization的好处3. 训练BN和使用BN进行推理(inference)4. 文章中的另一改进-将Inception模块中的5X5卷积用两层3X3卷积来代替5....原创 2019-05-03 17:59:47 · 2574 阅读 · 0 评论 -
循环神经网络(RNN)学习笔记
文章目录0 前言1 RNN结构2 手动实现一个RNN3 RNN的推导参考资料0 前言 循环神经网络(Recurrent Neural Network, RNN)的主要用途是处理和预测序列数据。无论是全连接神经网络还是卷积神经网络,其网络结构都是从输入层到隐藏层再到输出层,层与层之间是全连接或者部分连接,层之间的节点是无连接的。而循环神经网络隐藏层之间的结点是有连接的,隐藏层的输入不仅包括输入...原创 2019-07-03 23:29:34 · 3312 阅读 · 2 评论 -
长短期记忆网络(LSTM)学习笔记
文章目录0 前言1 LSTM与RNN的异同2 LSTM结构细节2.1 细胞状态2.2 遗忘门2.3 输入门2.4 输出门3 总结4 LSTM的变体4.1 Adding “Peephole Connections”4.2 耦合遗忘门和输入门4.3 GRU(Gated Recurrent Unit)参考资料0 前言 循环神经网络工作的关键点就是使用历史信息来帮助当前的决策,但同时也带来更大的技术...原创 2019-07-04 23:14:58 · 13489 阅读 · 8 评论 -
TensorFlow学习笔记(1)-基础笔记
文章目录1. 计算图的概念2. 常量与变量3. 交互式使用4. Fetch & Feed参考资料:1. 计算图的概念 TensorFlow 程序通常被组织成一个构建阶段和一个执行阶段。 在构建阶段, op 的执行步骤 被描述成一个图。在执行阶段, 使用会话执行执行图中的 op。 TensorFlow的名字中已经说明了它最为重要的两个特点:Tensor和Flow。其中Tensor意...原创 2019-01-09 11:40:06 · 1062 阅读 · 1 评论