Michaelliu_dev-CSDN博客

原创 ControlNet论文详解

图片处理特定任务上的数据集规模较小，例如LAION-5B这种数据集是特殊领域图像处理数据集（100k）的5w倍图片处理任务还是靠数据驱动的，所以想要在特定的硬件资源和时间上快速的训练一个大网络是比较难的图像处理任务非常的多样，目前还没有一个灵活的方式将不同的任务采用end-to-end方式完成，还是不同的任务用不同的方式来适配任务本文提出一种方法可以使得大模型在特定领域的小数据集上训练而不会过拟合，并且成本相对训练大模型来说低很多，并且不同的任务可以用同一套训练方式来适配。

2025-06-08 10:30:40 956

原创 LoRA转换操作

在23年写过一篇名叫的文章，用于讨论lora的原理。这里不赘述，只介绍几个常用的LoRA操作。

2025-06-08 10:16:24 1124

原创《PISSA》原理及应用

代码地址：https://github.com/GraphPKU/PiSSAhuggin face代码地址：https://github.com/huggingface/peft/tree/main/examples/pissa_finetuning#convert-pissa-to-lora。

2025-06-08 09:58:57 943

原创《Attention Is All You Need》算法详解

该篇文章右谷歌大脑团队在17年提出，目的是解决对于NLP中使用RNN不能并行计算（详情参考【译】理解LSTM（通俗易懂版）），从而导致算法效率低的问题。该篇文章中的模型就是近几年大家到处可以听到的Transformer模型。一、算法介绍前的说明由于该文章提出是解决NLP（Nature Language Processing）中的任务，例如文章实验是在翻译任务上做的。为了CV同学更好的理解，先简单介绍一下NLP任务的一个工作流程，来理解模型的输入和输出是什么。1.1 CV模型的输入和输出首先拿CV中的

2022-04-14 19:11:38 3149

原创 docker使用入门简介

一、什么是docker？https://www.docker.com/resources/what-container使用docker时有两个重要概念，一个是镜像（images），一个是容器（containers）镜像就是从docker hub或者自己制作好的一个包，类似压缩包容器，就是将镜像run起来后的一个虚拟环境二、为什么使用docker？对于我们来说，环境独立且相对轻量，互不影响，后台运行。三、怎么使用docker？介绍几个常用命令，方便使用首先要知道的是docker运行需要

2022-04-12 19:19:00 1512

原创如何使用git合并多次提交

在为代码添加一个新功能的时候你会怎么做？（从git的操作顺序来说）如果是我的话，顺序如下：先是使用git checkout -b ，来新建一个新的分支，然后开始按照自己提前思考好的逻辑加入新代码写好这个功能并调试好后，使用git add 、git commit提交代码但之后当你或者同事review代码，或者测试测出bug时，你又需要改代码并且将改后的代码提交，这样就造成了一个功能多次提...

2020-01-18 13:17:36 4867

原创 git revert的使用

本文假设读者知道git的基本原理。git revert命令其实非常好理解，就是revert的含义，该命令会重新进行一次新的提交，只是提交的内容是会退某一次提交。下面举例来说明。有一个仓库，仓库的提交记录和文件分别如下图所示，该仓库有三次提交，每次分别向仓库添加了1.txt，2.txt和3.txt，三个文件。通过git log可以查看以前的所有提交内容，并且提交时的版本号，分别如下三图所...

2019-10-24 08:27:09 1539 1

翻译【译】理解LSTM（通俗易懂版）

循环神经网络（Recurrent Neural Networks）人对一个问题的思考不会完全从头开始。比如你在阅读本片文章的时，你会根据之前理解过的信息来理解下面看到的文字。在理解当前文字的时候，你并不会忘记之前看过的文字，从头思考当前文字的含义。传统的神经网络并不能做到这一点，这是在对这种序列信息（如语音）进行预测时的一个缺点。比如你想对电影中的每个片段去做事件分类，传统的神经网络是很难通过...

2019-05-23 13:07:49 5161 3

原创《Mask2Former》算法详解

文章为发表在CVPR2022的一篇文章。从名字可以看出文章像提出一个可以统一处理各种分割任务（全景分割、语义分割、实例分割）的网络。

2024-05-03 20:04:04 5019 1

原创 MedianFlow 跟踪算法详解

在技术日新月异的时代，今天的技术可能在明天就会被新的技术取代，例如现在爆火的大模型。但目前看来，大模型还不能做到无所不能。所以这篇博客还是来考古一下，写一下传统的跟踪算法。这里不是为了怼大模型而为了写一篇传统算法而写传统算法。只是觉得这个算法有个思想非常有意思，所以记录一下。该算法在2010年发表在ICPR上，它主要是提出了Forward-Backward errors这种跟踪点的校验思想，使得跟踪点更为可靠。

2023-11-04 14:34:40 716

原创从新的角度看待大模型微调

一切要从最近大火的Lora(）说起，该文章在ICLR2022中提出。说的是利用低秩适配(low-rank adaptation)的方法，可以在使用大模型适配下游任务时只需要训练少量的参数即可达到一个很好的效果。LoRA是怎么去微调适配下游任务的？流程很简单，LoRA利用对应下游任务的数据，只通过训练新加部分参数来适配下游任务。而当训练好新的参数后，利用重参的方式，将新参数和老的模型参数合并，这样既能在新任务上到达fine-tune整个模型的效果，又不会在推断的时候增加推断的耗时。

2023-07-16 00:09:42 1554

原创关于OpenCV中minAreaRect角度记录

因为你还得根据当前的角度去计算新的角度，例如给定与旋转矩形相同大小的矩形，让你旋转到旋转矩形的角度，可能就得想半天了。这里提供一个可能会更好理解的方式。对于左图，它在opencv的旋转方式里，初始化就是宽大于高的框，所以只需要对应的转30就可以了，至于是正30还是负30（逆时针还是顺时针），我们这里明显是逆时针，所以根据当前版本的OpenCV返回角度取反就可以了。大概问题是minAreaRect这个接口返回的角度信息不足以反应返回的旋转矩形的旋转信息，例如返回角度为30度，那它到底是下面图中的哪一个呢？

2023-06-17 14:53:32 1726

转载【转载】JNI内存方面说明以及相关类型手动释放内存

它的生命期是在Native Method的执行期开始创建（从Java代码切换到Native代码环境时，或者在Native Method执行时调用JNI函数时），在Native Method执行完毕切换回Java代码时，所有Local Reference被删除（GC会回收其内存），生命期结束（调用DeleteLocalRef()可以提前回收内存，结束其生命期）。供Java应用程序使用的，所有java对象的内存都是从这里分配的，它不是物理上连续的，但是逻辑上是连续的。

2023-06-11 22:22:32 1368

原创 ChatGPT Prompt Engineering for Developers from DeepLearning.AI

【代码】ChatGPT Prompt Engineering for Developers from DeepLearning.AI。

2023-06-11 18:35:12 2726

原创 RepVGG: Making VGG-style ConvNets Great Again

文章发表于CVPR2021，文章提出一种将训练态和推断态网络结构解耦的方法。文章认为目前复杂的网络结构能够获取更高的精度，但是存在很明显的缺点：多分支结构可能会降低推断速度以及更占用显存。

2023-05-05 21:49:20 571

原创《ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene Text Detection》论文详解

github地址：https://github.com/wangyuxin87/ContourNet该论文发表与CVPR2020。文章认为现在自然场景主要存在两个挑战：1. 误检问题 2. 自然场景中文本尺度变化较大使得网络难以学习。为了解决上述的两个问题，文章提出了*Local Orthogonal Texture-aware Module (LOTM)*来缓解误检问题，（Adaptive-RPN）来解决文本尺度问题。

2023-03-26 12:50:58 288

原创 COCO物体检测评测方法简介

本文从ap计算到map计算，最后到coco[0.5:0.95:0.05] map的计算，一步一步拆解物体检测指标map的计算方式。

2023-02-11 16:59:59 1190

原创 ActionVLAD算法详解

action vlad

2022-11-20 13:57:18 1086

原创时空动作检测 (spatio-temporal action detection)

时刻动作检测（spatio-temporal action detection）任务简介

2022-10-24 00:15:00 4693

原创时序动作分割(temporal action segmentation)任务介绍

时序动作分割(temporal action segmentation)任务介绍

2022-10-01 10:22:34 3197 2

原创《Channel-wise Knowledge Distillation for Dense Prediction》论文详解

密集型任务蒸馏算法-CWD详解

2022-10-01 10:13:15 1435 2

原创视频时序动作检测（temporal action detection）介绍

视频时序动作检测

2022-09-04 15:17:54 2267

原创主流的视频动作类算法任务介绍

主流视频动作类算法任务介绍

2022-09-03 20:53:08 2759

原创视频时序动作识别（video action recognition）介绍

视频动作识别汇总介绍

2022-09-03 20:50:26 2421

原创 R3DS Wrap基本使用方法

中文的R3DS Wrap软件的教程较少，最近刚好实操了一遍，特此记录下来。为了描述方便，下面将R3DS Wrap简称Wrap。软件官网：https://www.russian3dscanner.com/一、目的及所需输入材料下面介绍一下使用Wrap将高模转为低模的方法。虽说目的是将高模转为低模，但是从软件名称和实际操作可以看出，软件是使用低模或者说是base mesh去包裹(wrap)高模，从而得到高模上对应与低模的顶点位置。要将高模转为低模，首先需要两个模型，一个是预先定义的低模，一个是通过

2022-03-16 21:00:09 5840

原创 Image captioning任务常用的评价指标计算

BLEU (bilingual evaluation understudy) ACL-2002Meteor AMTA-2004ROUGE-L ACL-2004CIDEr CVPR-2015SPICE ECCV-2016

2021-10-24 19:56:00 1020

原创 Image captioning评价方法之SPICE

项目地址：https://panderson.me/spice/上述的项目地址包含了论文地址和代码地址。该方法是由The Australian National University和Macquarie University联合发表在ECCV2016上。文章认为之前的评价方法采用n-gram的方式计算不是特别的好，例如下面例子(a) A young girl standing on top of a tennis court.(b) A giraffe standing on top of a g

2021-10-24 19:55:09 3550 1

原创 Image captioning评价方法之CIDEr

文章地址：CIDEr: Consensus-based Image Description Evaluation代码地址（非官方，且代码实现的是CIDEr-D）：https://github.com/tylin/coco-caption文章由微软和Virginia Tech联合发表在CVPR2015上。CIDEr是专门用来评价image captioning效果的评价指标。下面先定义一些符号。对于一张图片IiI_iIi，candidate sentence定义为cic_ici， referenc

2021-10-24 19:53:07 3485

原创 Image captioning评价方法之ROUGE-L

文章地址：ROUGE: A Package for Automatic Evaluation of Summaries代码地址(非官方)：https://github.com/tylin/coco-caption文章由University of Southern California发表在2004ACL上。ROUGE为 Recall-Oriented Understudy for Gisting Evaluation的缩写。文章ROUGE提出了用来评价文本摘要算法的评价集，里面包含了四个评价算法，分

2021-10-24 19:51:34 834

原创 Image captioning评价方法之Meteor

项目地址：http://www.cs.cmu.edu/~alavie/METEOR/代码地址（非官方实现，实现的是项目地址中的1.5版本）：https://github.com/tylin/coco-caption项目由CMU提供，项目地址包含了代码和最新版本以及之前老版本的meteor评价算法。下面记录一下最初版也就是《The Meteor Metri for Automatic Evaluation of Machine Translation》的计算思路。首先说明一下常用的BLEU的缺点，BL

2021-10-24 19:48:59 1048

原创 Image captioning评价方法之BLEU (bilingual evaluation understudy)

文章地址：BLEU: a Method for Automatic Evaluation of Machine Translation代码地址(非官方)：https://github.com/tylin/coco-caption该评价方法是IBM发表于ACL2002上。从文章命名可以看出，文章提出的是一种双语评价替补，"双语评价(bilingual evaluation)"说明文章初衷提出该评价指标是用于机器翻译好坏的评价指标，"替补(understudy)"说明文章想提出一种有效的评价指标进而帮助人类

2021-10-24 19:46:07 3390

原创 Record something about DL

这篇文章算是DL实践杂谈吧，主要是想把自己模型调优和复现算法遇到的一些坑总结一下（里面的一行字可能是我当时花费了一周甚至更长时间得到的总结），希望能对读者有所帮助。一、熟悉数据模型是数据的浓缩版----Andrew NG的二八定律，即80%的数据+20%的=更好的AI 对于新上手的一任务来说，需要熟悉你的数据。拿检测任务来说，可以写个可视化代码查看标注是否合理，查看一下待检测物体的大小分布情况（例如anchor的预设），查看一下图片大小，查看类别分布情况（例如是否有极端的分布）等等。二、算法选型

2021-09-10 20:44:50 732 1

原创《Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks》算法详解

论文: Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks官方代码(caffe): https://github.com/ZhaofanQiu/pseudo-3d-residual-networks非官方(pytorch): https://github.com/qijiezhao/pseudo-3d-pytorch由微软和中科大提出被ICCV2017收录一、核心创新提出将3D卷积进行时间和空间的.

2021-08-08 22:24:54 1178

原创《Learning Spatiotemporal Features with 3D Convolutional Networks》算法详解

论文: Learning Spatiotemporal Features with 3D Convolutional Networks官方代码(caffe): http://vlg.cs.dartmouth.edu/c3d/由Facebook和Dartmouth学院提出被ICCV2015收录一、核心创新网络全部使用3D卷积和3D池化方便在不同的任务中使用，如动作识别、相同动作判断、动态场景识别等网络简单且高效二、 3D卷积及网络的探索2.1 3D卷积与3D池化2.2 卷积核时间.

2021-08-08 22:18:18 581

原创《Temporal Pyramid Network for Action Recognition》算法详解

文章地址：《Temporal Pyramid Network for Action Recognition》代码地址：https://github.com/decisionforce/TPN该文章发表于CVPR2020。文章认为在动作识别领域，视觉速度(visual tempo)是很重要的信息。现有网络主要是通过控制采样不同的输入来完成visual tempo信息的提取，但是这样做会导致需要多入输入来实现。文章提出在feature层面来处理visual tempo信息，文章提出的结构不管是对于2D还是

2021-08-08 21:59:13 1258

原创《Global2Local》算法论文详解

《Global2Local》算法论文详解文章地址：《Global2Local: Effificient Structure Search for Video Action Segmentation》代码地址：https://github.com/ShangHua-Gao/G2L-search文章来自于南开大学程明明团队和腾讯、中科院，文章发表在CVPR2021。文章认为当前的视频动作分割算法中，网络的感受野是很重要的，大的感受野有利于观察long-term relations，而小的感受野有利于提取

2021-06-12 13:50:09 787 1

原创《MS-TCN++》算法详解

论文地址：《MS-TCN++: Multi-Stage Temporal Convolutional Network for Action Segmentation 》代码地址：https://github.com/sj-li/MS-TCN2从名字可以看出在该文章之前还有一篇《MS-TCN》发表于CVPR2019，MS-TCN在本文的前部分会被介绍。本文《MS-TCN++》则是发表于TPAMI2020。一、MS-TCN网络结构文章的网络结构是由多个自己提出的子模块组成的，下面先分别介绍各个子模块的

2021-06-06 20:49:40 4370 10

原创 S3D算法详解

S3D论文详解论文地址：Rethinking Spatiotemporal Feature Learning: Speed-Accuracy Trade-offs in Video Classification代码地址(pytorch非官方)：https://github.com/kylemin/S3D文章是谷歌发表于ECCV2018，为了平衡视频理解算法精度和速度，提出了S3D这个视频理解网络。文章首先提出了下列问题：是否需要3D卷积？如果是，哪些层需要是3D卷积哪些可以是2D卷积？这些操作会

2021-06-05 16:20:25 2362 2

原创《TEA: Temporal Excitation and Aggregation for Action Recognition》算法详解

文章地址：《TEA: Temporal Excitation and Aggregation for Action Recognition》代码地址：暂无该文章发表于CVPR2020，文章认为对于视频动作识别需要将视频的short-range信息和long-range信息都利用起来。所以文章提出了两个模块，motion excitation (ME) module用来提取short-range信息， multiple temporal aggregation (MTA) module用来提取long-r

2021-06-05 16:15:12 1331

原创 pytorch训练时前一次迭代的loss正常后一次迭代却报nan

问题描述：训练一个有四个阶段模型的网络（可以简单理解每一阶段就是一个卷积层），每阶段输出都会进行loss计算。现将pytorch原始的ce loss改为focal loss后，网络训练了数个迭代后loss 报nan。输入数据检查过没有问题，报nan时的前一个迭代的loss是正常的。报nan的当前迭代，第一个阶段所有的卷积参数都已经是nan了。一、问题排除因为查看过数据，完全没有问题，排除输入因为参数在报nan时已经是nan了，不是前向问题前一次迭代loss完全没问题，可能不是bp的问题，但是还没有

2021-05-28 20:22:28 3489

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

superviseddescentmethod工程实现的人脸特征点检测

A Review of Time-Scale Modification of Music Signals

asmlibrary

Cropface预处理软件

sift特征提取与物体检测

表情识别预处理小软件

active shape models-their training and application

哈弗曼编码

AAMlibrary

空空如也