XuecWu3-CSDN博客

nn.Sequential本质上是新定义了一个网络，这个网络里面有天然存在的输入输出继承关系。我们可以通过nn.Sequential的源码看到，其自带的forward() 函数不支持传递多个参数。经过查看我们所构建的网络的源码，发现该模型里面有子模块DWCov，forward里面需要传入多个参数，故此不能使用nn.Sequential，所以会报错。

2023-07-20 16:57:03 475

原创 PyTorch中的网络参数更新基本流程

【代码】PyTorch中的网络参数更新基本流程。

2023-07-05 10:45:51 483

原创多模态学习中四种常用的跨模态特征融合方法定义与PyTorch实现

本文共介绍四种方法，分别是SumFusion、ConcatFusion、FiLM以及GatedFusion。

2023-06-30 19:57:53 4803 1

单模态的表征负责将信息表示为计算机可以处理的数值向量或者进一步抽象为更高层的特征向量，而多模态表征是指通过利用多模态之间的互补性，消除模态间的冗余性，从而学习到更好的特征表示。协同结构并不是寻求融合而是在建模多种模态数据之间的相关性，它将多个（通常是两个）模态映射到协作空间，网络的主要优化目标为这种特定的协作关系（通常为相似性，即最小化cosine距离等度量）。检索的方法有单模态检索与跨模态检索两种方法，其中跨模态检索是在另一个模态集合中，直接检索相对应的结果，其性能通常优于单模态检索。

2023-04-24 17:18:26 504

原创基于moviepy的视频时长区间统计脚本

此处为基于moviepy所写的视频时长统计脚本，可以根据需要来替换视频的时间区间。

2023-03-21 19:37:39 268

原创神经网络中发生过拟合的原因与相关的解决方法

过拟合即为模型对训练集样本学习的“过好”，没有尽可能学习出适用于所有潜在样本的“普遍规律”，从而导致在出现新样本时不能够做出正确的判断。

2023-03-13 11:22:33 1583

原创【CVPR2018 3D ResNet】3D ResNet网络结构详解

3D ResNet系列网络由日本国家工业科学技术研究院的Kensho Hara等人提出。接下来，我将对3D ResNet系列网络做出详细的网络结构解释，欢迎大家补充与提问。我的github链接主页为。

2023-03-12 16:06:21 4936 2

原创【Anaconda&Miniconda】如何较为优雅地实现两种conda源的切换

原先实验室所使用的conda环境均为Anaconda，然而最近一位同学可能因为工作需要而将conda源切换Miniconda，这导致我们的base环境现在为miniconda3，即为对原先的Anaconda3进行了覆盖。一种可能的最终解决方案为修改.bashrc中的conda相关内容，其中.bashrc使用命令ls -a查看。此时，我们成功进入环境，pip list中显示的为我们的packages列表。

2023-03-12 15:54:03 4934

原创【视觉注意力机制】SE、CBAM、ECA三种可插拔注意力模块结构实现与详解

本文对于在计算机视觉任务中常用的三种注意力机制进行了代码实现以及结构的详解。

2022-08-16 15:30:40 4012

原创 CNN中各种池化操作的简单总结

对于卷积神经网络中常出现的各种池化操作的含义以及它们各自的优缺点进行了总结。

2022-08-12 20:10:36 1464

原创【CVPR2022 ConvNeXt网络结构详解】 A ConvNet for the 2020s

CVPR 2022 FAIR ConvNext主体网络结构代码详解，并且提供多个模型版本以满足不同应用场景的使用。

2022-07-09 21:48:35 1000

原创【Latex简历模板】OverLeaf平台筛选出的部分中英文简历模板

OverLeaf筛选中的部分中英文简历模板1.Suman Navaratnarajah's Résumé (Electronic Engineer) - Overleaf, Online LaTeX EditorIntern CVCreated based on the Modern CV templatehttps://www.overleaf.com/articles/suman-navaratnarajahs-resume-electronic-engineer/txgcyphkbmgf2..

2022-05-01 14:38:36 22261

原创 I3D网络主体代码详解

I3D是DeepMind发表于CVPR2017上的一个工作，对于视频理解领域的发展起到了不可磨灭的作用，目前仍作为视频理解的基线网络而被大家广泛使用。在文中，作者进行的为视频动作识别这个任务，但是这个网络并不局限于此。网络是提取特征的手段，而进行不同的任务相当于是在进行不同的特征空间映射，我们改变不同的标签即可进行不同的任务，比如说视频情绪识别、微表情识别等等。我们广泛采用微调的形式来进行此类任务，一般会取得不错的效果，在这里分享下我对于I3D主体网络的一些任务，因为时间原因进行的比较仓促，难免

2022-04-22 20:12:21 4800 4

原创 BERT主体网络代码详解

BERT(Bidirectional Encoder Representations from Transformers) 是Google AI Language由2019年发表的工作，其在某种意义上开创了NLP领域的新纪元。其采用了Transformer中的encoder架构进行工作，主要做的是MLM以及next sentence predict两个任务，其在大量的无标号的数据上进行预训练，之后进行fine-tune(微调)到相应的子任务数据集。与之相对应的是openAI的GPT系列，GPT系列使用的

2022-03-07 17:05:12 1254

原创 Transformer整体结构代码详解

我对于Transformer结构的pytorch版本进行了代码的梳理以及部分解析，Transformer在自然语言处理以及计算机视觉领域均大放异彩，极大地促进了语言以及视觉(ViT,Swin-T)这两大最为常见的信号的统一处理。由于时间的原因可能存在部分地方解析的并不到位或者有不准确的地方，希望大家能够多多提出宝贵的意见。特别说明：1.代码中的add&norm与原paper以及tensor2tensor library中的实现并不相同，原作者经过大量的实验发现，将LayerNorm放在add

2022-03-07 11:50:41 4007

原创 Swin-Transformer通用视觉骨干网络主体结构代码解释

Swin-Transformer由MSRA视觉计算组的team于2021年发表的工作，在多个视觉任务以及多个数据集上均取得了十分优秀的结果。在这里，我贴出我对于Swin-Transformer主体结构的一些代码的解释和tensor的shape的改变，由于时间的原因，可能会出现许多纰漏，希望大家多多指教paper：https://arxiv.org/pdf/2111.09883v1.pdfcode：GitHub - microsoft/Swin-Transformer: This is an offi

2022-02-25 10:01:08 5509

原创 CLIP(Contrastive Language-Image Pretraining)主体网络代码详解

CLIP是OpenAI于2021年发表的工作，其采用无监督学习中的对比学习的训练方法，使用了规模巨大的数据集（4亿个图片文本对）来进行训练，其在多个数据集上均得到了让人欣喜的结果，有效地证实了NLP与CV结合所具备的巨大的潜力，并基于此产生了许多有趣的工作。在这里分享一下我对于CLIP主体网络代码的理解，可能会存在诸多纰漏，请大家多多指教。paper：http://proceedings.mlr.press/v139/radford21a/radford21a.pdfcode:https://git

2022-02-21 21:23:13 11871 4

m0_47623548的博客

原创【清晰、易操作、好用】Latex简历模板-个人求职升学版

原创原生多模态大模型的一些思考【Native Omni-MLLMs】

原创为何PRM 和 MCTS在大语言模型中的推理效果不如蒸馏？

原创【FlashAttention安装】踩坑记录

原创【Voxceleb2-AVSpeech】视听说话人数据集云盘下载

原创基于Openface在ubuntu上抽取人脸图像

原创【PyTorch】分布式训练报错记录-ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 1)

原创【OpenCV】基于opencv的视频间隔抽帧脚本

原创【Anaconda/miniconda】conda虚拟环境打包与重新安装

原创【Ubuntu20.04+gcc-9.4.0】Openface在linux下的详细环境配置（2024.4月）

原创【nohup后台挂起的一种替代方式】TMUX命令使用技巧

原创基于FFMPEG的视频最短、最长、平均、总时长的统计脚本

原创【CVPR2021】CoTAttention注意力模块的搭建与实现

原创【PyTorch】深度可分离融合方法的定义与实现

原创 Dropout的作用基理与缓解过拟合现象的原因

原创【PyTorch】由于nn.sequential()引起的forward()takes 1 positional argument but 2 were given问题

原创 PyTorch中的网络参数更新基本流程

原创多模态学习中四种常用的跨模态特征融合方法定义与PyTorch实现

原创多模态机器学习中的技术挑战

原创基于moviepy的视频时长区间统计脚本

原创神经网络中发生过拟合的原因与相关的解决方法

原创【CVPR2018 3D ResNet】3D ResNet网络结构详解

原创【Anaconda&Miniconda】如何较为优雅地实现两种conda源的切换

原创【视觉注意力机制】SE、CBAM、ECA三种可插拔注意力模块结构实现与详解

原创 CNN中各种池化操作的简单总结

原创【CVPR2022 ConvNeXt网络结构详解】 A ConvNet for the 2020s

原创【Latex简历模板】OverLeaf平台筛选出的部分中英文简历模板

原创 I3D网络主体代码详解

原创 BERT主体网络代码详解

原创 Transformer整体结构代码详解

原创 Swin-Transformer通用视觉骨干网络主体结构代码解释

原创 CLIP(Contrastive Language-Image Pretraining)主体网络代码详解

原创 Resnet50残差网络代码详解

原创 DilatedEncoder（2021年CVPR-YOLOF）代码详解

原创 VisualTransformer（ViT）视觉任务骨干网络

原创 YOLOv5网络代码解析

原创 Coord.Attention 协调注意力机制

LabelImg-windows-v1.8.1.zip

空空如也