longa__
码龄3年
关注
提问 私信
  • 博客:5,467
    5,467
    总访问量
  • 9
    原创
  • 181,022
    排名
  • 72
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2021-12-19
博客简介:

longa__的博客

查看详细资料
  • 原力等级
    当前等级
    1
    当前总分
    88
    当月
    1
个人成就
  • 获得116次点赞
  • 内容获得1次评论
  • 获得93次收藏
创作历程
  • 10篇
    2024年
成就勋章
TA的专栏
  • 学习笔记
    3篇
创作活动更多

新星杯·14天创作挑战营·第9期

这是一个以写作博客为目的的创作活动,旨在鼓励大学生博主们挖掘自己的创作潜能,展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴,那么,快来参加吧!我们一起发掘写作的魅力,书写出属于我们的故事。我们诚挚邀请你们参加为期14天的创作挑战赛! 注: 1、参赛者可以进入活动群进行交流、分享创作心得,互相鼓励与支持(开卷),答疑及活动群请见 https://bbs.csdn.net/topics/619626357 2、文章质量分查询:https://www.csdn.net/qc

475人参与 去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

(自用学习笔记)vilt

vilt的表现使得未来关于 VLP 的工作 会。
原创
发布博客 2024.08.26 ·
519 阅读 ·
12 点赞 ·
0 评论 ·
6 收藏

(自用学习笔记)detr

detr是一个端到端的目标检测的方法,该模型使用 Transformer 替代了复杂的目标检测传统套路,它既不需要proposal也不需要anchor,无需nms来去除冗余的框,使模型的训练和部署都变得简单了。detr 将目标检测任务看作集合预测问题, 对于一张图片,固定预测一定数量的物体(原作是100个),模型根据这些物体对象与图片中全局上下文的关系直接并行输出预测集, 也就是 Transformer 一次性解码出图片中所有物体的预测结果,这种并行特性使得 DETR 非常高效。
原创
发布博客 2024.08.21 ·
491 阅读 ·
21 点赞 ·
0 评论 ·
16 收藏

(自用学习笔记)clip

在推理的时候,我们可以自行给定一组标签,这里clip打破了固定类别标签范式,然后将标签写成一个句子(prompt),然后通过encode提取特征,然后图片通过encode提取特征,最后计算图片和标签中的哪个特征最相似,那么这个图片和标签就匹配上了。从图1可以看到,模型的输入是文字和图片的配对,clip采用的是对比学习的方式进行预训练的,在一组数据中,仅有一个图文对是匹配的,我们称为正样本,其他的都是负样本,openai为了训练clip是专门做了一个有4亿个数据的数据集。图1 clip预训练。
原创
发布博客 2024.08.20 ·
879 阅读 ·
5 点赞 ·
0 评论 ·
11 收藏

(自用学习笔记)swin transformer

拿左下角的窗口举例子,因为6是上面移下来的所以6的高是3,那3的高度就是4,因为一个窗口的大小是7*7的,然后从左到右从上到下的把向量取出来,然后再跟qk矩阵去乘,然后再拿得到的qk做乘法(图里简化了),得到最后的A矩阵,从这个矩阵可以看到只有33和66的区域是需要做自注意力计算的,那其他地方就用掩码盖住。解决方法就是把窗口互补一下,还是拼成原来的4个窗口,但是这样又会出现一个问题就是离得远的像素点其实是不应该做注意力计算的,那这里十分巧妙的给出了掩码的解决方法。下面介绍怎么设计掩码。
原创
发布博客 2024.08.20 ·
1016 阅读 ·
19 点赞 ·
0 评论 ·
21 收藏

(自用学习笔记)moco和mae

(b)将图片的特征用memory bank装起来了,那这样确实是解决了内存的问题,但是他只有一个encode,假如一个minibatch的大小是64,那一次前向的过程之后会更新encode,然后把刚刚抽样出来的64个特征在encode上面进行一次特征提取然后放回去,这样往复之后在memory bank里面的特征就会缺乏一致性,导致效果不好。首先定义了参数fq,fk分别是提取特征的两个encod,queue是队列,m是更新的动量,t是infonce loss的温度。图1 三种模型,最右边的是moco。
原创
发布博客 2024.08.19 ·
858 阅读 ·
24 点赞 ·
1 评论 ·
11 收藏

(自用学习笔记)vision transformer

经过一次卷积(卷积核的大小是16*16,步长是16),经过这次卷积我们可以得到14*14*768的特征图(像素的个数不变,相当于把每个patch拉直在了一个像素点里面,所以是16*16*3=768),接下来我们把特征图拉直就得到196*768的矩阵,然后concat一个cls token,之后把位置编码直接与向量相加,在这里我们得到的是197*768的矩阵,然后就可以送到encode里面了。关于位置编码,vit使用的位置编码是学习得到的,这里补充一下比较一般的位置编码。图1 vit的架构图。
原创
发布博客 2024.08.19 ·
229 阅读 ·
12 点赞 ·
0 评论 ·
1 收藏

OpenCV函数库查询手册(python)

参数:第一个,写入的视频文件名。原型: Sobel(src,ddepth,dx,dy,dst=None,ksize=None,scale=None,delta=None,borderType=None)原型:Laplacian(src,ddepth,dst=None,ksize=None,scale=None,delta=None,borderType=None)原型:GaussianBlur(src,ksize,sigmaX,dst=None,sigmaY=None,borderType=None)
转载
发布博客 2024.03.25 ·
357 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

YOLO-V3

自己的学习笔记
原创
发布博客 2024.03.24 ·
413 阅读 ·
5 点赞 ·
1 评论 ·
10 收藏

YOLO-V2

在v1中,预测偏移量是直接给出预测值,这会使得刚开始的时候模型很飘,不好收敛,于是v2中为了解决这个方法,作者让预测出来的数值是一个相对值,比如tx,ty是相对于网格的左上角的偏移量,将他们放到了sigmoid函数中使得这个值在0-1之间,也就是这个中心点怎么都出不了这个网格,cx,cy是为了知道这个中心点在哪个网格中,是给定的,因为这个就是为了固定住中心点的位置。在卷积的时候输出的图大小不变,但是做降采样的时候变从原来的一半,一共做了5次,所以最后的图是原来的1/32。
原创
发布博客 2024.03.24 ·
352 阅读 ·
5 点赞 ·
1 评论 ·
8 收藏

YOLO-v1

自己的学习笔记
原创
发布博客 2024.03.23 ·
339 阅读 ·
12 点赞 ·
1 评论 ·
5 收藏