Hollyprince-CSDN博客

转载 MMdetection3d学习

在轻松掌握 MMDetection 整体构建流程(一) 文中，重点分析了 MMDetection 框架中 Model 整体构建流程，但仅对 Model 算法组件方面进行深入分析，并未涉及整个框架训练和测试流程。本文核心内容是按照抽象到具体方式，从多个层次进行训练和测试流程深入解析，从最抽象层讲起，到最后核心代码实现，希望帮助大家更容易理解 MMDetection 开源框架整体构建细节。

2025-03-11 21:01:36 214

转载一文通透想颠覆Transformer的Mamba：从SSM、S4到mamba、线性transformer(含RWKV解析)（转）

一文通透想颠覆Transformer的Mamba：从SSM、S4到mamba、线性transformer(含RWKV解析)

2024-01-24 18:50:11 3661

转载论文笔记 VMSMO: Learning to Generate Multimodal Summary for Video-based News Articles

提出了一种新的任务–基于视频的多模态输出的多模态概括（VMSMO），它从新闻视频中选取封面帧，同时生成新闻文章的文本摘要。

2023-12-28 20:41:43 253 2

转载常见目标跟踪数据集下载链接整理（更新中）

搜罗一下，感觉没人把常见的目标跟踪下载链接汇总整理的，这里就整理一下，因为有些网址很难打开，这里也是想方便之后大家获取，来看看吧！我就从大佬图中来找几个吧！因为不是全接触过，有些链接不是很好，有小伙伴有更好的建议，欢迎评论！

2023-12-12 16:23:29 1054

转载 BEIT-3论文阅读笔记

BEIT-3 使用掩码数据建模的方式，借助 Transformer 这一方便处理图片和文本的模型架构，统一进行训练，在多个纯视觉任务和视觉-文本任务中都取得了 SOTA 性能。

2023-12-11 16:42:40 290

转载大模型时代下做科研的四个思路

在模型越来越大的时代背景下，如何利用有限的资源做出一些科研工作。

2023-10-03 15:28:54 367

刚才王苏给大家表演了一个图像-文本预训练模型四连鞭（果然功力还是不及马保国大师），不知大家尽兴了没有~当下多模态领域正得到越来越多的关注，而预训练模型的效果也得到了学术界+工业界的广泛认可。虽然从研究角度上讲搞预训练模型的计算开销不是一般人负担得起的，但我们聪明的大脑是不受算力限制的！我们可以从预训练模型的设计和取得的效果中逐步发现在跨模态任务中与NLP语言模型地位相当的任务，进而了解真正实现多种模态共通所需要的内在联系。模型虽然要讲Modal，但不同Modal在同一个模型里搞搞窝里斗也是可以的。

2023-09-23 15:44:23 555 1

转载 Stanford CoreNLP 入门指南

最近一直在写毕业论文，因为是一个基于语料库分析的题目，所以牵扯到了词性标注、句法分析等等内容。在一番查找之后，决定用 Stanford CoreNLP 来进行处理，一方面是因为这个工具本身功能齐全，另一方面也是因为这个工具比较容易上手使用。在使用过程中慢慢发现目前这一工具的中文教程或者说明还比较不完善，大多数教程都是复制来复制去的几张图，很多需要注意的地方都没有涉及，所以决定写一篇文章来总结一下这个工具主要的使用方法。但是，这并不是一篇讲自然语言处理技术的文章，只是一个使用指南，更适合语言学方向以及单纯需要

2023-04-26 20:22:45 3837 3

转载 Physics-Embedded Machine Learning 文献调研分析

使用机器学习建模的系统，很多具有各种形式的物理先验或者领域知识。如果使用基础的机器学习模型，预测的结果可能不符合这样的先验知识，使得我们对模型抱有质疑，甚至直接导致模型不可用；而如果可以将先验信息嵌入模型中，使得模型可以保证相关的性质被满足，则可以提升模型的数据效率、泛化能力、可解释性。

2023-03-08 21:36:23 935

转载【Masked Autoencoders Are Scalable Vision Learners】

本文证明了，在CV领域中，Masked Autoencoders（MAE）是一种scalable的自监督学习器。MAE方法很简单：我们随机mask掉输入图像的patches并重建这部分丢失的像素。它基于两个核心设计。首先，我们开发了一种非对称的encoder-decoder结构，其中，encoder仅在可见的（即没有被mask的）patches子集上运行，同时还有一个轻量级decoder，用于从潜在表示和masked tokens重建原始图像。

2022-12-07 16:50:24 733

转载浅谈文本生成或者文本翻译解码策略《转》

文本生成和文本翻译的效果不仅仅在于模型层面的好坏，同时预测阶段的解码策略也是比较重要，不同的解码策略得出的效果也是不同的。经过学者们多年的研究，目前就我所知的文本生成相关的解码策略主要有贪心搜索(greedy search)、beam_search集束搜索、随机sampling、top-k sampling和Top-p Sampling，今天我们主要聊聊这几种文本解码策略算法。

2022-11-13 21:13:30 700

转载 ViLT：最简单的多模态Transformer

清楚的归纳了各种多模态算法，提出了一种非常简单的多模态Transformer方法ViLT。先阐述一下4种不同类型的Vision-and-Language Pretraining(VLP)，然后归纳2种模态相互作用方式和3种visual embedding方式，最后讲一下ViLT的设计思路。...

2022-08-31 16:45:19 1264

转载 Qt连接MySQL数据库最详细的教程

Qt连接MySQL数据库最详细的教程

2022-08-08 18:55:02 6448 1

转载【大模型机遇与风险】

斯坦福大学的 Percy Liang、Rishi Bommasani（Percy Liang 的学生）、李飞飞等 100 多位研究者联名发布了一篇系统探讨此问题的论文。在论文中，他们给这种大模型取了一个名字——「基础模型（foundation model）」，并系统探讨了基础模型的机遇与风险。「基础」代表至关重要，但并不完备。......

2022-07-29 15:48:51 721

转载 NLP 预训练小综述

自从 ELMO，GPT，BERT 问世，基于大规模预料的预训练模型便开始流行起来。学者们的注意力渐渐从模型架构转移到了预训练上。预训练+微调的方式也创造了不少下游任务 SOTA。

2022-07-27 10:04:15 523

转载梯度消失和梯度爆炸及解决方法

梯度消失和梯度爆炸的原因和解决办法

2022-07-20 21:16:24 18280 1

转载激活函数及其各自的优缺点

激活函数对于人工神经网络模型去学习、理解非常复杂和非线性的函数来说具有十分重要的作用。它们将非线性特性引入到我们的网络中。

2022-07-20 20:32:21 3042

转载【论文读后感】：A simple yet effective baseline for 3d human pose estimation

3d人体姿态估计领域由于深度神经网络的使用，在端对端系统预测中已经取得不错的成果。但是我们还不确定那些错误的预测是因为以下哪种原因：

2022-07-15 22:16:31 965 1

转载深度学习中的正则化技术--L1&L2-norm,Dropout,Max-norm

规范化技术一般用于解决模型的过拟合问题，本文将深入浅出的介绍几种常见的正则化技术

2022-07-15 21:43:12 1242 5

转载图卷积基本总结《转》

图卷积总结

2022-06-29 21:05:21 910

转载 YOLOv6：又快又准的目标检测框架开源啦《转载》

项目已开源至Github，本框架同时专注于检测的精度和推理效率，在工业界常用的尺寸模型中：YOLOv6-nano 在 COCO 上精度可达 35.0% AP，在 T4 上推理速度可达 1242 FPS；YOLOv6-s 在 COCO 上精度可达 43.1% AP，在 T4 上推理速度可达 520 FPS。在部署方面，YOLOv6 支持 GPU（TensorRT）、CPU（OPENVINO）、ARM（MNN、TNN、NCNN）等不同平台的部署，极大地简化工程部署时的适配工作。......

2022-06-29 10:49:33 449

转载【Language Models Can See: Plugging Visual Controls in Text Generation】

本文提出了一个全新的 MAGIC (iMAge-guided text GeneratIon with CLIP）框架。该框架可以使用图片模态的信息指导预训练语言模型完成一系列跨模态生成任务

2022-06-14 15:34:34 553

原创论文翻译及笔记【Quantifying Societal Bias Amplification in Image Captioning】

2022年CVPR文章的学习心得及翻译原文链接https://arxiv.org/abs/2203.15395v1摘要我们研究图像描述中社会偏见放大（的问题）。图像描述模型已被证明会延续性别和种族偏见，然而，衡量、量化和评估描述中的社会偏见的指标还没有标准化。我们对每个指标的优势和局限性进行了全面的研究，并提出了LIC，一个研究字幕偏见放大的指标。我们认为，对于图像描述来说，仅仅关注（能否）正确预测关键属性是不够的，还应该考虑到整个上下文（背景）。我们对经典的和最先进的图像描述模型进行了广泛的评估，

2022-05-06 11:06:08 556

转载 2021：VinVL: Revisiting Visual Representations in Vision-Language Models

VinVL: Revisiting Visual Representations in Vision-Language Models

2022-01-17 17:03:17 640

原创 Ubuntu18.04下Qt5.9.8连接mysql数据库失败的解决办法

Ubuntu18.04下Qt5.9.8连接mysql数据库失败的解决办法问题：连接mysql数据库时，出现如下提示：　　QSqlDatabase: QMYSQL driver not loaded　　QSqlDatabase: available drivers: QSQLITE QMYSQL QMYSQL3 QPSQL QPSQL7　　db open err: “Driver not...

2019-12-19 22:47:45 514