深度学习
文章平均质量分 75
Jozky86
这个作者很懒,什么都没留下…
展开
-
S-nerf精读(未完成)
S-nerf原创 2025-01-06 20:09:38 · 103 阅读 · 0 评论 -
RCDN:精读
S-nerf原创 2025-01-06 20:08:53 · 99 阅读 · 0 评论 -
协同感知资料汇总
【CV论文精读】【协同感知综述】Collaborative Perception for Autonomous Driving :Current Status and Future Trend最新最全总结!自动驾驶Occupancy感知综述:信息融合视角我们研究自动驾驶的 3D 占用感知原创 2024-12-10 12:43:35 · 125 阅读 · 0 评论 -
CLIP论文&&CLIP 改进工作串讲
CLIP模型改动的三点1.改动最小,目前的图像和文本经过CLIP的预训练模型(CLIP预训练数据集比较大,直接使用预训练的参数非常好),得到一个特别好的特征。然后用这个特征做一下点乘或拼接(融合),之前的模型不动,用一个更好的特征加强之前模型的训练。2.知识蒸馏,将CLIP模型作为teacher网络,生成伪标签。帮助现有的模型收敛更快。3.不借鉴CLIP的预训练参数,而是借用CLIP这种多模态的对比学习思想(图像文本对,对角线GT)。原创 2024-11-07 20:55:37 · 705 阅读 · 0 评论 -
Diffusion Model && Stable Diffusion(笔记)
Denoise实际功能是通过一个图x+时间戳,生成该图中噪音点y,然后用原图x-y得到去掉噪音点的图。Denoise模型的能力是根据图x和时间戳,识别x中的噪音点。现在将z和时间戳作为数据,然后将噪音y作为标准答案,然后巡训练模型。就是输入的时候多输入一个文字信息,训练的时候也是多输入一个文字信息。通过Denoise将一个噪音图一步步生成为目标图像。x(原图)+噪音y(随机高斯分布得到)=噪音图z。原创 2024-09-22 01:16:57 · 384 阅读 · 0 评论 -
(pytorch)基于Transformer的相关项目
基于Transformer的翻译模型基于Transformer的分类模型基于Transformer的对联模型原创 2024-02-06 11:38:18 · 247 阅读 · 0 评论 -
Transformer学习笔记(下),手写实现Transformer
x语言的所有词汇就7个词,说任何话都是用这7个词采样概率是模仿自然语言中有些词经常被说到(热门词),有些词很难被说到(生僻词)以概率在词汇表中进行采样,采一个随机长度transformer的作用是将x翻译成y,也就说y和x之间要有一定的关联性,y可以根据x推导出来的x和y的关联规则:y当中的每一词都是x当中的词进行逆序之后的结果,小写字母变大写字母,y当中的数字是用9减去x当中的数字得到的虚线的箭头表明y当中的第一位取决于x的最后一位(9-x),即y当中第一位和第二位是相同的。原创 2024-01-31 11:44:38 · 2106 阅读 · 0 评论 -
基于pytorch的ResNet垃圾图片分类
步骤:搭建模型->搭建训练函数->搭建验证函数->搭建数据加载器->损失函数与优化器->开始训练。需要排除图像宽高过大和过小的数据(图像高宽均保持在200到2000以内)需要排除图像宽高比例不协调的数据(图像宽高比例低于0.5的数据)对样本数少于平均数的进行数据增强,样本数多于平均数的不进行处理。在txt中,左侧为图片路径,右侧为标签(从0开始计算)类别和类别之间的数据不均衡,利用数据增强来加强数据。为了让样本数更均衡,对数据量过多的数据进行下采样。增强方式:水平翻转,垂直翻转。label等于10个数字。原创 2024-01-17 13:56:13 · 1083 阅读 · 0 评论 -
ResNet学习&&论文精读&&手搓代码&&相关项目
在ResNet中,(aa): Identity() 表示残差块中的 “aa” 部分,它的作用是恒等映射(identity mapping)。nn.Identity() 是 PyTorch 中的一个模块,它的作用是进行恒等映射,即将输入直接返回,不进行任何变换。总之,(aa): Identity() 的作用是创建一个跳跃连接,允许梯度直接通过残差块,促进了网络的训练。f(x)=x+g(x),此处+为逐元素的相加(x和g(x)的结构是相同的)残差块使得很深的网络更加容易训练,甚至可以训练一千层的网络。原创 2024-01-15 16:23:52 · 1030 阅读 · 0 评论 -
深度学习相关知识点内补充学习(自用)
具体来说,如果 X 的形状是 (a, b, c, d),那么 torch.cat((X, X+1), 1) 将沿着第二维度(即 b 的方向)连接这两个张量。与stack相比:torch.stack 会在指定的维度上创建一个新的轴,因此结果张量的维度会比输入张量的维度多一个。在这个例子中,如果 X 是形状为 (a, b, c, d) 的张量,那么连接后的结果形状将是 (a, 2b, c, d)。torch.cat((X, X+1), 1) 是 PyTorch 中用于在指定维度上拼接(连接)张量的函数。原创 2024-01-11 22:25:33 · 812 阅读 · 0 评论 -
Transformer学习笔记(上)
传统的自回归翻译模型(如基于循环神经网络的模型)会一个一个地生成目标语言的单词,每个单词生成的时候都会依赖于前面已生成的单词。全连接层的计算过程可以表示为 Y = X * W + b,其中 X 是输入数据的向量,W 是权重矩阵,b 是偏置向量,Y是输出数据的向量。在自回归模型中,模型生成序列的每个元素时都依赖于前面已生成的元素,因此生成是逐步的、依次进行的。总之,全连接层是神经网络中的一种层类型,每个输入神经元与输出层的每个神经元都有连接,通过权重和偏置项进行线性组合,将输入数据映射到最终的输出空间。原创 2024-01-10 14:02:56 · 1102 阅读 · 0 评论 -
Yolov5开源代码调试
项目地址:https://github.com/ultralytics/yolov5/tree/v6.0。原创 2024-01-05 17:22:46 · 405 阅读 · 0 评论 -
【小土堆】PyTorch深度学习快速入门教程笔记【下】(自用复习,还没更新完)
完整的模型训练套路原创 2024-01-04 14:09:39 · 428 阅读 · 0 评论 -
【小土堆】PyTorch深度学习快速入门教程笔记(自用复习)
建议pycharm用视频里的版本,最新版本有些配置用不明白。原创 2024-01-04 14:08:16 · 696 阅读 · 0 评论
分享