自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 资源 (6)
  • 收藏
  • 关注

原创 减小模型训练成本的视频动作识别 Efficient Video Transformers with Spatial-Temporal Token Selection 论文精读笔记

好久没写博文了,抽空看了一篇,在准备开题报告相关的事。本文主要来自 VALSE 的一个短视频:20220914【视频理解研究进展与未来】吴祖煊:基于 Transformer 的视频内容理解,感觉很有意思,遂找到这篇论文来精读下。

2022-10-24 08:00:00 65

原创 新的方式 E2EC: An End-to-End Contour-based Method for High-Quality High-Speed Instance Segmentation 论文笔记

忙的不是很彻底,继续看论文撸代码,找找灵感。这篇论文主要针对实例分割中的标签做了优化,列举了之前的 Polar Mask,LSNet,Deep snake 等方法的优缺点。提出自己的方法,确实很有新意。这篇文章写的也比较好,实验很是充分,是篇好文章。

2022-09-27 09:45:08 149 1

原创 【无标题】

目前的人工智能技术太强了,比如说人脸生成,都能做到以假乱真的地步,还有虚拟化妆之类的,很难用肉眼判断出来是否采用了人工智能技术,这对于那些不知情的“榜一大哥”绝对是个头疼的问题。另外,由于某些人的居心,利用大模型来生成一些邪恶的事物也是够够的,之前都有消息爆出来,公开搞yellow。真正的技术是对人类的发展进程是有益的,虽然人工智能的发展目前看来还是不够成熟,缺少足够的法律约束,等等问题都没有解决。但不可否认地是,我们在用的手机,电脑等这些电子设备或多或少都含有人工智能的影子在其中,这也是大势所趋。

2022-09-16 19:43:40 308

原创 DETR系列之 MDETR - Modulated Detection for End-to-End Multi-Modal Understanding 论文笔记

时隔几个月没完整地写一篇论文笔记了,下一个目标,开始行动了。前排提出,这篇文章的结构、布局、语言不太合理。

2022-09-16 10:01:42 512

原创 VALSE2022天津线下参会个人总结8月24日-3

8月24日的学生论坛我也是偶尔之间注意到的,真的得感谢我的运气和VALSE组委会,虽然没法参加上午的Workshop,但是学生论坛的帮助更甚。太感谢VALSE了,让我能亲眼见到只在视频中出现的人物,Swim-Transformer 的一作刘泽,FCOS的一作田值,RepVGG的一作丁霄汗,南航的刘偲老师(在2020年的CSIG云课堂上见过)。.........

2022-08-26 21:16:32 157

原创 VALSE2022天津线下参会个人总结8月23日-2

第一天晚上买了杯猕猴桃味的蜜雪冰城,今天第二天,住的酒店有点远,得起早点咯。

2022-08-26 20:06:56 647

原创 VALSE2022天津线下参会个人总结8月22日-1

非常幸运也很感谢VALSE给了我这样一个能线下参加的机会,遇到了很多的业界大佬,特别是深度学习领域一些大牛导师和一些代表作的一作们,他们的演讲给予我很多启发与见识,与大牛导师/作者的面对面交流更是让我激动不已。........................

2022-08-26 16:22:48 272 2

原创 结合 Swin-Transformer 的 LAVT: Language-Aware Vision Transformer for Referring Image Segmentation 论文笔记

这篇文章同样是参考图像分割,区别于上一篇:无卷积结构(那就纯ransformer)的参考图像分割:ReSTR: Convolution-free Referring Image Segmentation Using Transformers,这篇结合了当下最主流的 Swim-Transformer 网络,性能着实强悍,且新颖度很高,是篇好论文。......

2022-07-02 14:31:53 697

原创 无卷积结构(那就纯ransformer)的参考图像分割:ReSTR: Convolution-free Referring Image Segmentation Using Transformers

快速过一篇论文: ReSTR: Convolution-free Referring Image Segmentation Using Transformers,新颖的话也谈不上多新颖,目前的 Transformer 都快烂大街了,其中的一些结构可以借鉴下,说不定是涨点神器。

2022-07-01 15:28:03 702

原创 两年之期已满,你学到了什么?

CSDN给我发的消息,创作开始2年有余,究竟得到了什么呢?

2022-05-30 10:50:59 105 2

原创 目标检测序列化 Pix2Seq: A Language Modeling Farmework for Objection Dection 论文笔记

好久都没写论文相关的博客了,最近苦于调参。抽空看了一下这篇有新意的论文。将之前目标检测的通用范式:预测回归框的位置,变成直接预测目标的位置。论文框架简单,很管用。

2022-05-27 22:26:04 115

原创 Pytorhc中的Torch.tensor.masked_fill_(mask, value)函数拓展

照例,吐槽一下之前CSDN博客中关于tensor.masked_fill_ (mask,value)函数,如你所见,大部分的博客都是强调 mask 的 shape 必须和tensor一样,但是咋就没有同学考虑广播机制的存在捏?

2022-04-29 16:14:05 544

原创 关于 FLOPS、FLOPs、参数量的相关计算

最近找到一些计算FLOPs的文章,奈何全是水文,讲都讲不清楚,完完全全的究极缝合怪。因此,这里准备彻底搞懂。

2022-03-30 19:07:40 4729 10

原创 胶囊网络之 Found a Reason for me? Weakly-supervised Grounded Visual Question Answering using Capsules论文笔记

这是一篇其他文章里面的参考文献,感觉比较有新意。然后一搜,果然,CSDN 也有一篇 博文,但可惜是翻译后的文章,未能满足我的要求,最重要的是没有核心算法框架图与 LaTeX 公式,因此特地再开一篇博文。更新一:2021年4月15日,跑了一下源码,对本文EM算法和矩阵形状进行补充,高亮显示。

2022-03-24 20:35:11 3374

原创 Anaconda/pip 更换阿里源,助力 conda create -n 虚拟环境搭建

Anaconda/pip 更换为阿里源,助力 conda create -n 虚拟环境搭建

2022-03-22 10:06:45 10146 11

原创 MCAN论文进阶——MoVie: Revisting Modulated Convolutions for Visual Counting and Beyond 论文笔记

本文是 VQA 2021 Challenge 的冠军,方法上没有太复杂,主要是结合 Defense grid 的思路和 MCAN 的方法,再根据自己的 idea 做出一些创新,最终夺冠的模型采用了 32 个models 的 ensemble。

2022-03-13 19:03:41 4517

原创 多类别目标计数 Towards Partial Supervision for Generic Object Counting in Natural Scenes 论文笔记

趁热打铁,赶紧多看论文啊,开春正是学习的好机会~

2022-03-07 21:25:03 3911 3

原创 类别感知目标计数:Class-aware Object Counting 论文笔记

开学归来,正式复工~  这是一篇多类别目标计数的文章,思路清晰,但公式表达的不是太好(有点云里雾里的),暂未开源。

2022-03-05 22:16:47 890

原创 多类别目标计数 Dilated-Scale-Aware Category-Attention ConvNet for Multi-Class Object Counting 论文笔记

过年在家,工作时间减少了很多,玩的也很嗨,花零散时间读完了这篇论文及代码,抽空做个总结。该论文写的是多类别目标计数,思路稍显复杂,改进的空间应该蛮多的。

2022-02-03 21:58:12 2663

原创 You only need to look at once 系列用于目标计数?——Object Counting:You Only Need To Look At One论文笔记

这是第二篇关于目标计数的文章,站在上一篇少样本计数的肩膀上,思路比较简单,重点在于模型的搭建,创新点也是比较足。

2021-12-29 10:13:21 1542

原创 为了统计一切出现在图像上的目标类别的计数:Learning To Count Everything 论文笔记

这是一篇关于目标计数的文章,5月份CVPR出来的时候看过了,这里总结一下,为下一篇做铺垫。代码试过了,比较管用。强推!

2021-12-26 15:15:51 1996

原创 VQA2021年之后的方向启蒙:Human-Adversarial Visual Question Answering 论文笔记

这是一篇关于VQA数据集的拓展数据集文章,即提出了一种新的数据集Adversarial VQA(AdVQA),也就是对抗性的VQA数据集,该数据集专门收集了SOTA模型不能正确回答的问题,并得出现有VQA模型的能力仍然不足的结论,推荐2021年之后还在研究VQA方向的同学可以深挖。

2021-12-23 19:54:50 2071 3

原创 WeaQA:Weak Supervision via Captions for Visual Question Answering 论文笔记

这是一篇采用弱监督方式解决VQA的文章,与上一篇:Visual Question Answering with Textual Representations for Images 论文笔记有异曲同工之妙,但是这一篇更加花里胡哨一点。前者只采用问题+图像描述作为VQA模型的输入,后者采用图像+视觉字幕的方法取代监督的Q-A问答对,也就是本文标题所说的WeaQA。另外,前者采用的图像描述中包含了视觉字幕,这两者我一开始以为差不多的工作,看完后发现两篇文章都有各自的idea。

2021-12-17 19:31:18 470

原创 MLP Architectures for Vision-and-Language Modeling: An Empirical Study 笔记

这是一篇实验性质的论文,重点在于结论,这也是笔者第一次接触到这类文章,总体来说,重点关注实验结论,至于实验过程,还是尽量看懂其实验的步骤,无需过度理解。另外,参考文献中的一些文章值得细细阅读,会在博文最后面给出。

2021-12-15 19:55:04 2388 2

原创 Visual Question Answering with Textual Representations for Images 论文笔记

Visual Question Answering with Textual Representations for Images 论文笔记一、Abstract二、引言三、方法3.1 Language-only 数据3.1.1 Questions and Answers3.1.2 Image Description3.1.3 Synthetic Data3.2 VQA中的数据增强3.2.1 Hypernym and Hyponym Replacement3.2.2 Color Inversion3.2.3

2021-12-14 16:03:01 183

原创 Introspective Distillation for Robust Question Answering 论文笔记

Introspective Distillation for Robust Question Answering 论文笔记一、Abstract二、引言三、Related work3.1 视觉问答3.2 Extractive Question Answering3.3 Ensemble-based methods for debiasing3.4 Knowledge Distillation四、内省蒸馏4.1 ID-Teacher and OOD-Teacher4.2 Introspection of Ind

2021-12-05 16:44:58 2991 4

原创 Regularizing Attention Networks for Anomaly Detection in Visual Question Answering 论文笔记

Regularizing Attention Networks for Anomaly Detection in Visual Question Answering 论文笔记一、Abstract写在前面这是一篇关于VQA模型鲁棒性的文章,笔者也是第二次接触这类文章,(打个小广告,上一次的文章已经写出来了,关注一下即可获取最新关于VQA论文解读),文章读起来还是有那么一点拗口的,主旨是提出了对于VQA模型的5种反常场景,判断模型能不能够识别出来以及作者提出的注意力方法来识别这五种场景。论文地址:gul

2021-12-03 16:50:35 289

原创 Reducing Language Biases in Visual Question Answering with Visually-Grounded Question Encoder 论文笔记

Reducing Language Biases in Visual Question Answering with Visually-Grounded Question Encoder 论文笔记一、Abstract二、引言写在前面  这篇文章同样之前已经看过一遍,现在重新拿出来复习一下,这篇文章有个最牛皮的效果就是并未减小VQA模型在VQAv2数据集上的精度,反而增加了该精度,目前我看到的文章only this能做到这一点,值得称赞????!论文链接:Reducing Language Biase

2021-11-20 18:55:39 1618

原创 LPF: A Language-Prior Feedback Objective Function for De-biased Visual Question Answering 论文笔记

LPF: A Language-Prior Feedback Objective Function for De-biased Visual Question Answering 论文笔记一、摘要二、引言三、方法3.1 An arbitrary VQA model写在前面  这是一篇关于VQA中bias的文章,由于我之前看过一遍,这里点一下核心创新点在于将question-only分支加上了一个动态的权重阈值。由于没有代码,只需弄懂文章表达的意思即可。文章链接:LPF: A Language-Pri

2021-10-24 09:15:17 112

原创 FCOS:Fully Convolutional One-Stage Object Detection 论文笔记

FCOS:Fully Convolutional One-Stage Object Detection 论文笔记一、Abstract二、引言三、相关工作1、Anchor-based Detectors2、Anchor-free Detectors四、方法4.1 Fully Convolutional OneStage Object Detector神经网络的输出部分:损失函数推理4.2 Multilevel Prediction with FPN for FCOS4.3 Centerness for FCO

2021-10-15 14:39:40 59

原创 Are VQA Systems RAD? Measuring Robustness to Augmented Data with Focused Interventions 论文阅读笔记

Are VQA Systems RAD? Measuring Robustness to Augmented Data with Focused Interventions 论文阅读笔记一、Abstract二、引言三、Robustness to Counterfactuals3.1 Model Robustness3.2 Counterfactual Augmentations四、Robustness with RAD and CADs4.1 实验步骤Baseline AugmentationsModels

2021-09-30 17:07:32 91

原创 In Factuality: Efficient Integration of Relevant Facts for Visual Question Answering 论文笔记

In Factuality: Efficient Integration of Relevant Facts for Visual Question Answering 论文笔记一、Abstract二、引言写在前面  最近看了几篇论文,不是太想写博客,原因是有的论文写的真是晦涩难懂,各种高级语法措辞真是令人头疼。今天读的这一篇论文语法还能接受,但就我看来也是属于那种食之无味弃之可惜的“鸡肋”文章。这篇文章最主要的在于其结论:UNITER网络在KVQA数据集上不会关注图像特征,也就是说你在网络中使用了图像

2021-09-25 12:49:55 66

原创 Check It Again: Progressive Visual Question Answering via Visual Entailment 论文笔记

Check It Again: Progressive Visual Question Answeringvia Visual Entailment 论文笔记一、Abstract二、引言三、Related Work3.1 Language-Priors Methods3.2 Answer Re-rankingvia Visual Entailment 论文笔记)写在前面这是一篇关于VQAv2.0数据集de-bias的论文,方法也很清晰,英语表达上也可以借鉴一番,是篇好文章。论文题目:Check I

2021-09-14 11:06:39 108

原创 Weakly Supervised Instance Segmentation using the Bounding Box Tightness Prior 论文笔记

Weakly Supervised Instance Segmentation using the Bounding Box Tightness Prior 论文笔记一、摘要二、引言三、相关工作3.1 Weakly supervised semantic segmentation3.2 Fully supervised instance segmentation.3.3 Weakly supervised instance segmentation四、方法4.1 Overview3.2 Proposed M

2021-08-22 15:06:05 350

原创 Greedy Gradient Ensemble for Robust Visual Question Answering论文笔记

很长一段时间没写博客了,时间真是太紧了,好好学习~分享一篇ICCV2021的文章,关于VQA中的bias,评价数据集为VQA-CP-v2和VQA-v2

2021-08-19 21:23:23 316 2

原创 Graph Relation Transformer: Incorporating Edge Relations into the Transformer Architecture 论文笔记

Graph Relation Transformer: Incorporating Edge Relations into theTransformer Architecture 论文笔记一、AbstractTransformer Architecture 论文笔记)写在前面这篇论文是CVPR2021 Workshop的第五篇,也是比较短的一篇文章,3页(含参考文献)。见名知意,和图神经网络相关的Transformer,这类文章看着就比较新,因为理论上来说我目前看到的文章还没有把图神经网络和Tran

2021-07-18 10:40:25 125

原创 Dealing with Missing Modalities in the VQ Answer-Difference Prediction Task through知识蒸馏 笔记

Dealing with Missing Modalities in the Visual Question Answer-Difference Prediction Task through Knowledge Distillation 论文笔记一、Abstract二、引言三、相关工作1、Answer Difference in VQA Datasets2、Generalized Knowledge Distillation四、Methodology1、Problem Definition2、Propos

2021-07-15 21:34:27 103

原创 Biases and Reasoning Patterns in VQA 笔记

这是VQA2021 workshop的第三篇,内容不多,3页,最后一页为参考文献。本文可以看做是CVPR2021上两篇文章的总结:1、 Roses are Red, Violets are Blue But Should VQA expect Them To?2、 How transferable are reasoning patterns in vqa?从本文的趋势来看,虽然今年的大部分文章在 关注预训练,但是仍然有 专注于数据集bias的工作,再一个,后面工作的趋势必然是走 轻量化的路子,学术

2021-07-09 17:15:37 186

原创 LSnet:Location-Sensitive Visual Recognition with Cross-IOU Loss 主要源码解读 1

LSnet:Location-Sensitive Visual Recognition with Cross-IOU Loss主要源码解读一、框架搭建二、网络主体解读1、extrace_features2、lsnet.py解读写在前面照例。每次写博文的时候来个介绍。LSnet是目标检测中基于anchor-free的检测方法。单单读论文并不能领悟其中一些特定的代码设计之巧妙。遂写下这篇博文以记之~论文链接:Location-Sensitive Visual Recognition with Cross-

2021-07-07 19:01:45 511

原创 Separating Skills and Concepts for Novel Visual Question Answering 论文笔记

Separating Skills and Concepts for Novel Visual Question Answering 论文笔记一、Abstract二、引言写在前面这是CVPR2021 VQA Workshop的第三篇论文,大胆预言一下是针对Novel Visual Question Answering数据集的。论文链接:Separating Skills and Concepts for Novel Visual Question Answering代码链接:github切忌:勿坐

2021-07-07 16:35:06 475 2

test_record_images.md

Python 遍历文件夹下的图片,将文件名和图片宽度和高度写入数组中,并保存为.json文件

2021-07-09

libdarknet.so

yolov4_tiny在jetson nano上编译好的文件,可直接共给darknet.py调用,当然前提得安装好opencv,opencv版本为4.1.1

2021-04-12

cu101+torch_cluster-1.5.4+scatter-2.0.4+sparse-0.6.1+spline_conv+torch140+cp37

包含cu101+torch_cluster-1.5.4+torch_scatter-2.0.4+torch_sparse-0.6.1+torch_spline_conv+torch-1.4.0+torchvision-0.5.0-cp37-win_amd64等多个.whl文件,图神经网络编程用

2020-07-04

批量处理程序.PY

在日常工作中经常会遇到这样的情况,需要将某个文件夹下的文件按照一定的规则重新命名。如果用手工方式逐个文件进行重命名,需要耗费大量时间,而且操作过程容易出错。在学习Python以后,完全给以用这个一个简单的程序完成这样的工作,程序的每行代码都做了注释,程序需要放在要处理的文件夹内。

2019-08-31

Yale人脸图像库

该人脸库可用于人脸识别算法,该数据库包含5760个单个光源图像,每个10个对象在576个观察条件下看到(9个构成×64个照明条件)。对于特定姿势中的每个主体,还捕获具有环境(背景)照明的图像。因此,图像的总数实际上是5760 + 90 = 5850。

2019-03-13

自动关机助手

自助关机小程序,可精确到天,时,分,是一款非常好用的小软件

2018-12-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除