深度学习
文章平均质量分 82
joker D888
20级学生,喜爱linux C++ ,借用博客来记录笔记,整理记录,与大家一起分享知识。
人一辈子,没有人能打败你,只有你自己打败你自己。过去不可追,未来却可期。那么,一切就从现在开始。
展开
-
Soft TeacherEnd-to-End Semi-Supervised Object Detection with Soft Teacher
相较于之前更复杂的多阶段方法,本论文提出了一个端到端的半监督目标检测方法。这个端到端的训练在学习过程中逐渐提高伪标签的质量,而越来越准确的伪标签反过来又有利于目标检测的训练。在这个框架中我们还提出了两个简单且有效的技巧:一种是软教师机制,其中每个未标注边界框的分类损失由教师网络产生的分类得分加权;另一种是框抖动方法,用于选择可靠的伪框,以便进行框回归学习。在COCO基准测试中,所提出的方法在不同标注比例(即1%,5%,10%)下显著优于先前的方法。此外,当标注数据相对较多时,我们的方法也表现良好。原创 2024-10-29 23:08:48 · 989 阅读 · 0 评论 -
线性回归矩阵求解和梯度求解
正规方程通过线性代数的方法为线性回归提供了解的表达式,使得我们可以有效地计算参数。其核心思想是通过最小化残差平方和,寻找最佳拟合的线性模型。MSE12m∑i1mhθxi−yi2MSE2m1i1∑mhθxi−yi2这里,hθxiXi⋅θhθxiXi⋅θ是模型的预测值,yiy^{(i)}yi是实际值。原创 2024-10-29 23:02:36 · 1182 阅读 · 0 评论 -
深度解析Transformer:从自注意力到MLP的工作机制
嵌入矩阵:将输入的token(文本中的词或字符)转化为高维向量表示。中间层(Attention + MLP):层层堆叠的Attention机制和多层感知机(MLP),帮助模型提取深层次语义信息。GPT-3使用了96层这种结构。解嵌入矩阵:用于将最后的嵌入向量解码为输出结果,即每个词的概率分布,进而预测下一个词。接下来我们深入理解各部分的工作原理,尤其是自注意力和多层感知机。原创 2024-10-17 16:22:47 · 1260 阅读 · 0 评论 -
目标检测评估指标与损失指标
在目标检测任务中,评估模型的性能通常使用多种指标,这些指标包括平均精度(Average Precision, AP)和平均召回率(Average Recall, AR)。接下来将介绍来自于目标检测任务的评估结果,其中涉及多个变量,包括IoU(Intersection over Union,交并比)、area(目标面积大小)、maxDets(最大检测数量)。原创 2024-10-12 10:42:44 · 976 阅读 · 0 评论 -
分类评估指标
这些指标各有特点,适用于不同的场景和需求。了解它们有助于更全面地评估和优化分类模型的性能。原创 2024-10-12 10:41:47 · 860 阅读 · 0 评论 -
卷积和转置卷积的输出尺寸计算
若想要将图像高宽扩大p倍,就可以让stride=p,然后调整k_w和padding,比如,(这样滑动一次只滑过窗口的一半),然后看。计算公式,其实就是上面公式的逆运算。stride=1就是上面的公式。再比如,高宽被缩小32倍后为。,这里padding就取1。,想要恢复原尺寸:首先。原创 2024-09-19 22:53:55 · 400 阅读 · 1 评论 -
模型训练时CPU和GPU大幅度波动——可能是数据的读入拖后腿
在进行猫狗大战分类任务时,发现模型训练时CPU和GPU大幅度波动,且模型训练速度很慢。原创 2024-09-19 22:52:14 · 339 阅读 · 0 评论 -
卷积神经网络与小型全连接网络在MNIST数据集上的对比
通过基本相同参数量的卷积神经网络和小型全连接网络,在MNIST进行对比学习,其中包括详细参数计算。原创 2024-09-05 18:06:00 · 1516 阅读 · 0 评论