自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 【OpenCV】基于opencv的视频间隔抽帧脚本

1. 通过指定frame_interval来确定帧间隔;2. 使用了joblib来加快处理速度。

2024-05-29 09:39:39 295

原创 【Anaconda/miniconda】conda虚拟环境打包与重新安装

【代码】【Anaconda/miniconda】conda虚拟环境打包与重新安装。

2024-05-23 15:44:32 403

原创 【Ubuntu20.04+gcc-9.4.0】Openface在linux下的详细环境配置(2024.4月)

openface在ubuntu20.04下的详细配置教程

2024-04-24 22:22:28 932 1

原创 【nohup后台挂起的一种替代方式】TMUX命令使用技巧

因为在使用常用的nohup命令搭配torchrun的时候会出现一些因nohup而产生的bug,我们可以尝试使用tmux来代替nohup命令。

2024-01-11 11:55:09 758

原创 基于FFMPEG的视频最短、最长、平均、总时长的统计脚本

【代码】基于FFMPEG的视频最短、最长、平均、总时长的统计脚本。

2023-09-15 15:29:12 302

原创 【CVPR2021】CoTAttention注意力模块的搭建与实现

CoTAttention注意力模块的代码具体实现与测试。

2023-09-12 23:07:56 786

原创 【PyTorch】深度可分离融合方法的定义与实现

深度可分离融合是一种将特征在通道维度和空间维度上进行融合的方法。在下面的代码示例中,将展示如何使用PyTorch实现深度可分离融合。在这个示例中,我们对输入的特征在通道维度上进行加权相加,然后将通道维度融合后的特征与空间维度上的特征进行拼接。

2023-08-14 20:26:33 221

原创 Dropout的作用基理与缓解过拟合现象的原因

Dropout的作用基理与缓解过拟合现象的原因

2023-08-03 14:25:08 113

原创 【PyTorch】由于nn.sequential()引起的forward()takes 1 positional argument but 2 were given问题

nn.Sequential本质上是新定义了一个网络,这个网络里面有天然存在的输入输出继承关系。我们可以通过nn.Sequential的源码看到,其自带的forward() 函数不支持传递多个参数。经过查看我们所构建的网络的源码,发现该模型里面有子模块DWCov,forward里面需要传入多个参数,故此不能使用nn.Sequential,所以会报错。

2023-07-20 16:57:03 311

原创 PyTorch中的网络参数更新基本流程

【代码】PyTorch中的网络参数更新基本流程。

2023-07-05 10:45:51 314

原创 多模态学习中四种常用的跨模态特征融合方法定义与PyTorch实现

本文共介绍四种方法,分别是SumFusion、ConcatFusion、FiLM以及GatedFusion。

2023-06-30 19:57:53 3248 1

原创 多模态机器学习中的技术挑战

单模态的表征负责将信息表示为计算机可以处理的数值向量或者进一步抽象为更高层的特征向量,而多模态表征是指通过利用多模态之间的互补性,消除模态间的冗余性,从而学习到更好的特征表示。协同结构并不是寻求融合而是在建模多种模态数据之间的相关性,它将多个(通常是两个)模态映射到协作空间,网络的主要优化目标为这种特定的协作关系(通常为相似性,即最小化cosine距离等度量)。检索的方法有单模态检索与跨模态检索两种方法,其中跨模态检索是在另一个模态集合中,直接检索相对应的结果,其性能通常优于单模态检索。

2023-04-24 17:18:26 333 1

原创 基于moviepy的视频时长区间统计脚本

此处为基于moviepy所写的视频时长统计脚本,可以根据需要来替换视频的时间区间。

2023-03-21 19:37:39 172

原创 神经网络中发生过拟合的原因与相关的解决方法

过拟合即为模型对训练集样本学习的“过好”,没有尽可能学习出适用于所有潜在样本的“普遍规律”,从而导致在出现新样本时不能够做出正确的判断。

2023-03-13 11:22:33 1270

原创 【CVPR2018 3D ResNet】3D ResNet网络结构详解

3D ResNet系列网络由日本国家工业科学技术研究院的Kensho Hara等人提出。接下来,我将对3D ResNet系列网络做出详细的网络结构解释,欢迎大家补充与提问。我的github链接主页为。

2023-03-12 16:06:21 2967 2

原创 【Anaconda&Miniconda】如何较为优雅地实现两种conda源的切换

原先实验室所使用的conda环境均为Anaconda,然而最近一位同学可能因为工作需要而将conda源切换Miniconda,这导致我们的base环境现在为miniconda3,即为对原先的Anaconda3进行了覆盖。一种可能的最终解决方案为修改.bashrc中的conda相关内容,其中.bashrc使用命令ls -a查看。此时,我们成功进入环境,pip list中显示的为我们的packages列表。

2023-03-12 15:54:03 3156

原创 【视觉注意力机制】SE、CBAM、ECA三种可插拔注意力模块结构实现与详解

本文对于在计算机视觉任务中常用的三种注意力机制进行了代码实现以及结构的详解。

2022-08-16 15:30:40 3724

原创 CNN中各种池化操作的简单总结

对于卷积神经网络中常出现的各种池化操作的含义以及它们各自的优缺点进行了总结。

2022-08-12 20:10:36 1334

原创 【CVPR2022 ConvNeXt网络结构详解】 A ConvNet for the 2020s

CVPR 2022 FAIR ConvNext主体网络结构代码详解,并且提供多个模型版本以满足不同应用场景的使用。

2022-07-09 21:48:35 789

原创 【Latex简历模板】OverLeaf平台筛选出的部分中英文简历模板

OverLeaf筛选中的部分中英文简历模板1.Suman Navaratnarajah's Résumé (Electronic Engineer) - Overleaf, Online LaTeX EditorIntern CVCreated based on the Modern CV templatehttps://www.overleaf.com/articles/suman-navaratnarajahs-resume-electronic-engineer/txgcyphkbmgf2..

2022-05-01 14:38:36 14061

原创 I3D网络主体代码详解

I3D是DeepMind发表于CVPR2017上的一个工作,对于视频理解领域的发展起到了不可磨灭的作用,目前仍作为视频理解的基线网络而被大家广泛使用。在文中,作者进行的为视频动作识别这个任务,但是这个网络并不局限于此。网络是提取特征的手段,而进行不同的任务相当于是在进行不同的特征空间映射,我们改变不同的标签即可进行不同的任务,比如说视频情绪识别、微表情识别等等。我们广泛采用微调的形式来进行此类任务,一般会取得不错的效果,在这里分享下我对于I3D主体网络的一些任务,因为时间原因进行的比较仓促,难免

2022-04-22 20:12:21 4189 4

原创 BERT主体网络代码详解

BERT(Bidirectional Encoder Representations from Transformers) 是Google AI Language由2019年发表的工作,其在某种意义上开创了NLP领域的新纪元。其采用了Transformer中的encoder架构进行工作,主要做的是MLM以及next sentence predict两个任务,其在大量的无标号的数据上进行预训练,之后进行fine-tune(微调)到相应的子任务数据集。与之相对应的是openAI的GPT系列,GPT系列使用的

2022-03-07 17:05:12 1139

原创 Transformer整体结构代码详解

我对于Transformer结构的pytorch版本进行了代码的梳理以及部分解析,Transformer在自然语言处理以及计算机视觉领域均大放异彩,极大地促进了语言以及视觉(ViT,Swin-T)这两大最为常见的信号的统一处理。由于时间的原因可能存在部分地方解析的并不到位或者有不准确的地方,希望大家能够多多提出宝贵的意见。特别说明:1.代码中的add&norm与原paper以及tensor2tensor library中的实现并不相同,原作者经过大量的实验发现,将LayerNorm放在add

2022-03-07 11:50:41 3817

原创 Swin-Transformer通用视觉骨干网络主体结构代码解释

Swin-Transformer由MSRA视觉计算组的team于2021年发表的工作,在多个视觉任务以及多个数据集上均取得了十分优秀的结果。在这里,我贴出我对于Swin-Transformer主体结构的一些代码的解释和tensor的shape的改变,由于时间的原因,可能会出现许多纰漏,希望大家多多指教paper:https://arxiv.org/pdf/2111.09883v1.pdfcode:GitHub - microsoft/Swin-Transformer: This is an offi

2022-02-25 10:01:08 5143

原创 CLIP(Contrastive Language-Image Pretraining)主体网络代码详解

CLIP是OpenAI于2021年发表的工作,其采用无监督学习中的对比学习的训练方法,使用了规模巨大的数据集(4亿个图片文本对)来进行训练,其在多个数据集上均得到了让人欣喜的结果,有效地证实了NLP与CV结合所具备的巨大的潜力,并基于此产生了许多有趣的工作。在这里分享一下我对于CLIP主体网络代码的理解,可能会存在诸多纰漏,请大家多多指教。paper:http://proceedings.mlr.press/v139/radford21a/radford21a.pdfcode:https://git

2022-02-21 21:23:13 11000 4

原创 Resnet50残差网络代码详解

Resnet50是Resnet残差网络系列的代表网络,由Kaiming于2016年提出,发表于CVPR论文地址:CVPR 2016 Open Access Repository参考代码:https://github.com/bubbliiiing/classification-pytorch/tree/main/netsimport torchimport torch.nn as nn#--------------------------------## 从torch官方可以下载resn

2022-02-20 17:46:13 14987 1

原创 DilatedEncoder(2021年CVPR-YOLOF)代码详解

在这里分享一下我对于DilatedEncoder模块的代码解释,DilatedEncoder为2021年CVPR paper You Only Look One-Level Feature中所提出的一个模块,其主要作用在于扩大感受野,作者的本意在于通过该模块来降低因为只使用backbone最深层的特征而造成的感受野的缺失的问题。paper:CVPR 2021 Open Access Repositorycode:https://github.com/megvii-model/YOLOF

2022-02-19 16:33:33 2809

原创 VisualTransformer(ViT)视觉任务骨干网络

在这里分享一下我对于ViT骨干网络的代码理解,ViT paper发表于2021年,掀起了transformer结构在视觉任务中的应用潮流。

2022-02-08 15:21:30 3354 1

原创 YOLOv5网络代码解析

pytorch-YOLOv5网络代码解析,针对code进行了较为详细的解释,欢迎提问

2022-02-05 17:31:21 3210

原创 Coord.Attention 协调注意力机制

2021年CVPR--协调注意力机制

2022-01-15 16:39:14 4077 2

LabelImg-windows-v1.8.1.zip

目标检测中的bouding box标注

2023-03-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除