自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(137)
  • 收藏
  • 关注

原创 【YOLO 系列】YOLO v4-v5先验知识

YOLO v4和v5版本在v3版本的基础上,组合了多种先进算法提升精度。为了能快速理解YOLO v4和v5,我们需要了解各种改进方法。此篇博文从输入端、主干网络、Neck和输出等四个方面简要介绍v4和v5中用到的改进方法。

2023-05-08 17:23:06 1979

原创 ChatGPT背后的技术:人类反馈强化学习RLHF

人类反馈强化学习RLHF是一种强化学习的技术,其中人类专家提供了额外的反馈,以帮助智能系统更快地学习。在传统地强化学习中,智能系统收到奖励或惩罚作为反馈,以根据行动地结果调整其策略。而在RLHF中,人类专家的反馈可以提供更具体的信息,例如哪些策略是良好的,哪些是不好的,以及如何改进。这有助于提高智能系统的学习速度和准确性,并且使其能够在复杂的环境下操作。

2023-05-01 19:17:48 2548

原创 【大学时光】回首向来萧瑟处,归去,也无风雨也无晴

时光荏苒,大学时代却总是令人怀念。如果有机会回到大学时光,你想对当时的自己说点什么呢?

2023-04-25 14:47:11 763 1

原创 CLIP 论文解读

CLIP算法的核心是利用自然语言包含的监督信号来训练视觉模型。相比于其他的训练方法,从自然语言中学习具有以下两个优势。首先,相比于标准的有标签图像分类数据集,这种方法无需标注,就很容易扩展数据集;其次,图像和文字配对训练,学习到的特征不单单是一个视觉特征,而是多模态的特征,有助于zero-shot的迁移学习。

2023-04-18 16:57:01 2801

原创 类ChatGPT产品Claude上线Slack平台,一手实测体验在此

Claude是Anthropic推出的类ChatGPT对话机器人。Anthropic是一家由前OpenAI团队成员创立的人工智能初创公司。Claude镶嵌在Slack中,它免费、支持中文、无需注册。简单上手,非常适合普罗大众,想要白嫖的小伙伴,抓紧体验。

2023-04-15 18:28:27 10220 1

原创 数据增广:Mixup, Cutout 和 CutMix

CutMix相比于Mixup是两个图片的叠加,而不是两张图片的混合。CutMix相比于Cutout,剪裁的区域填充的不是0像素值,而是另一张图片的部分区域

2022-11-07 22:29:42 1649

原创 Pytorch 转ONNX详解

模型部署面临两大问题,如何让开发者不受开发框架的限制和如何提升模型的运算效率。经过工业界和学术界数年的探索,一般流行的模型部署流水线是:首先开发者们在任意一种深度学习框架下定义网络结构,训练得到网络参数;然后,将模型的结构和参数转换成一种只描述网络结构的中间表示。针对网络结构的优化会在这步进行。ONNX就是一种模型中间表示。 最后,用面向硬件的高性能编程框架(如 CUDA,OpenCL)编写能高效执行深度学习网络中算子的推理引擎,推理引擎将中间表示转换成特定的文件格式。

2022-11-06 12:42:38 7449 6

原创 轻量级网络(一):MobileNet V1,V2, V3系列

在实际应用中,不仅要关注模型的精度,还需要关注模型的速度。在既要精度又要速度的考量中,轻量化网络应运而生。轻量级网络拥有不差于笨重模型的性能,但相比于笨重模型,有更少的参数和计算量,对硬件更友好。轻量级网络发展至今,已经涌现了SqueezeNet系列,MobileNet系列,ShuffleNet系列,EfficientNet等等系列。这篇文章仅仅阐述MobileNet从V1到V3的发展历程。...

2022-08-09 11:25:07 2815

原创 对比学习系列(三)-----SimCLR

SimCLR通过隐藏空间的对比损失最大化相同数据在不同增广下的一致性来学习表达。SimCLR框架有四个主要的组件,分别是:数据增广,encode网络,projection head网络和对比学习函数。

2022-08-09 10:59:19 3334

原创 Swin-Transformer

本篇博文详细讲解ViT和Swim-Transformer

2022-07-13 20:58:45 6139

原创 对比学习系列(一)---InfoDisc

Unsupervised Feature Learning via Non-Parametric Instance Discrimination文章目录Unsupervised Feature Learning via Non-Parametric Instance Discrimination方法NCEProximal RegularizationWeighted k-Nearest Neighborhood Classification在ImageNet数据集上,top-5分类错误率明显比top-

2022-03-24 22:41:26 644

原创 对比学习系列(五)---SimSiam

孪生网络已经成为无监督视觉表征学习的一种常见结构。孪生网络最大化一个图像的两个增广之间的相似性。论文提出了一个简单的孪生网络(SimSiam)在**不需要负样本对、大的批次和动量编码**的情况下学习表征。

2022-03-24 22:35:12 11311 4

原创 对比学习系列(四)---BYOL

MoCo,SimCLR等对比学习方法都依赖于负样本,BYOL**不需要负样本**也能在ImageNet上取得74.3%的top-1分类准确率。

2022-03-24 22:27:36 10447

原创 对比学习系列(二)---MoCo 系列

MoCo 系列文章目录MoCo 系列自监督MoCo V1前言动量对比Dictionary as a queueMomentum update代理任务Shuffling BN实验MoCo V2MoCo V3参考自监督监督学习在视觉领域应用广泛且成熟,但是也存在着一些挑战:监督学习需要大量带标签的数据,数据易得,但是给数据打标签工作枯燥且繁复,且成本高昂。我们希望能够省去人工标注的环节,使用无标签的数据集去预训练。自监督学习是一种不需要人工输入数据标签的监督学习。不同于监督学习,自监督学习在没有

2022-03-24 21:59:09 7493

原创 S2A-NET

S2A-NET文章目录S2A-NET基础知识引言网络架构FAMARNACL对齐卷积ODM实现损失函数推理消融实验参考基础知识长边135∘135^{\circ}135∘定义法,angle∈[−45∘,135∘)angle \in [ -45^{\circ}, 135^{\circ})angle∈[−45∘,135∘), theta∈[−π/4,3⋅π/4)theta \in [ -\pi / 4, 3 \cdot \pi / 4)theta∈[−π/4,3⋅π/4)且height> width。

2022-03-23 22:42:57 2534 2

原创 【图像检索】DOLG论文

图像检索任务通常从数据库中检索出和query图片相似的图片。检索任务通常使用全局特征向量通过相似性检索出候选图像,然后再利用他们的局部特征进行re-rank候选者。检索任务分为两个步骤,每个步骤分别利用全局特征和局部特征。DOLG模型通过利用图像中的全局和局部信息进行端到端的检索。首先利用多簇卷积层和自注意力提取局部特征;然后从局部特征中提取与全局表示正交的分量;最后将正交分量与全局表示合并聚合生成最终表示。

2021-12-10 19:51:26 6056 4

原创 Pytorch 加载图像数据(ImageFolder和Dataloader)

Pytorch加载图像数据集需要两步,首先需要使用**torchvision.datasets.ImageFolder()**读取图像,然后再使用**torch.utils.data.DataLoader()**加载数据集。

2021-12-06 19:56:55 12578 8

原创 ONNX 转tensorRT

ONNX 转tensorRT文章目录ONNX 转tensorRT固定尺寸转engine动态尺寸转engine参考固定尺寸转engine动态尺寸转engine参考tensorRT Developer Guide

2021-10-17 19:30:53 965 1

原创 知识蒸馏在目标检测中的应用

知识蒸馏在目标检测中的应用文章目录知识蒸馏在目标检测中的应用Knowledge DistillationSoft Target vs Hard TargetDistillationFaster RCNNLearning Efficient Object Detection Models with Knowledge DistillationOverall StructureKD for cls with Imbalanced ClassesKD for Regression with Teacher Bo

2021-10-17 19:23:41 2089

原创 Transformer理解

Transformer 是一种著名的深度学习模型,现已经被广泛应用于自然语言处理、计算机视觉和语音处理等等各个领域。Transformer最初是作为机器翻译的序列到序列模型提出的。后来的工作表明,基于Transformer的预训练模型可以在各种任务上实现最优性能。因此,Transformer已经成为NLP中的主流架构。最近,使用Transformer来完成视觉任务成为一个新的研究方向,ViT(Vision Transformer)使用Transformer进行图像分类,DERT使用Transformer进行

2021-10-17 16:26:02 1715

原创 t-SNE

t-SNE文章目录t-SNE原理SNE(Stochastic Neighbor Embedding)t-SNE对称SNE拥挤问题不匹配的尾部可以补偿不匹配的维度sklearn.manifold.TSNE参数返回对象的属性Methods附录Kullback-Leibler divergencest-distributionmanifold learning(流形学习)Swiss Roll参考t-SNE是一种可视化高维数据的工具。它将数据点之间的相似性转换为联合概率,并尝试最小化低维嵌入和高维数据的联合概率

2021-09-22 20:13:56 855

原创 Large-Scale Long-Tailed Recognition in an Open World

论文中开发出一种OLTR算法,该算法将图像映射到一个特征空间,使得视觉概念可以基于一个学习的度量很容易地相互关联,该度量尊重封闭世界分类,同时承认开放世界的新颖性。OLTR模型有两个主要模块:动态元嵌入(dynamic meta embedding)和调制注意(modulated attention)。前者在头尾类之间联系和传递知识,后者保持头尾类之间的区别。

2021-09-22 20:09:24 1928

原创 Towards Open World Object Detection

文章目录前言Open World Object DetectionOREContrastive ClusteringAuto-labelling Unknowns with RPNEnergy Based Unknown IdentifierAlleviating Forgetting实验和结果数据Evaluation metrics实现细节More Details on Contrastive ClusteringResultsvisualization附录韦伯分布此论文中提出了一个新的计算机视觉问题

2021-07-22 22:26:37 1851 2

原创 RetinaNet:Focal Loss for Dense Object Detection

RetinaNet:Focal Loss for Dense Object Detection文章目录RetinaNet:Focal Loss for Dense Object DetectionFocal LossFocal loss*DerivativesAnalysis of the Focal LossRetinaNet DetectorAnchorClassification SubnetBox Regression SubnetExperiments参考一阶段目标检测算法在训练时面临类别不平

2021-06-11 10:17:04 267 1

原创 文字检测算法--Differentiable Binarization

文字检测算法–Differentiable Binarization文章目录文字检测算法--Differentiable BinarizationDifferentiable Binarization架构SB vs DB标签生成Loss 函数推理阶段后处理实现细节参考Differentiable Binarization近年来,基于分割的方法在文本检测中备受欢迎。分割算法能够更加准确地描述不同形状的场景文本。对于基于分割方法的检测,将分割算法生成的概率图转换成二值化的处理过程是至关重要的。论文的主要

2021-05-30 17:19:24 1230

原创 OpenCV图像处理

Opencv提供两种变换函数,cv2.warpAffine()和cv2.warpPerspective()

2021-03-19 16:43:21 515

原创 Faster RCNN

Faster RCNN文章目录Faster RCNN介绍RoI PoolingLoss Function训练方式交替优化训练近似联合训练附录Python Template参考看这篇文章之前,建议先看如下两篇文章。理解Anchor和RPN之后,就会很轻松理解Faster RCNN。Faster RCNN 中的AnchorFaster RCNN 中的RPN解析介绍Faster RCNN 网络由四部分组成,分别是作为backbone的卷积层,RPN,RoI Pooling和最后的全连接层部分。

2021-03-13 18:12:16 795

原创 Faster RCNN 中的RPN解析

Faster RCNN 中的RPN解析文章目录Faster RCNN 中的RPN解析Anchor分类bounding box regressionproposal参考RCNN和Fast RCNN中使用Selective Search方法找出所有的候选框,SS方法非常耗时。Faster RCNN中提出RPN(region proposal network)替代SS方法提取候选框,并提出anchor的概念。虽然目前anchor free的各种算法层出不穷,但是anchor的思想也曾引领风潮。RPN是一个轻

2021-03-12 14:54:29 963

原创 Faster RCNN 中的Anchor

本篇文章详细介绍Faster RCNN 中的Anchor计算

2021-03-03 21:53:53 2460 2

原创 ONNX

Open Neural Network Exchange(ONNX)是一个开放的生态系统,它使人工智能开发人员在推进项目时选择合适的工具,不用被框架或者生态系统所束缚。ONNX支持不同框架之间的互操作性,简化从研究到生产之间的道路。ONNX支持许多框架(TensorFlow, Pytorch, Keras, MxNet, MATLAB等等),这些框架中的模型都可以导出或者转换为标准ONNX格式。模型采用ONNX格式后,就可在各种平台和设备上运行。概述神经网络的深度学习是通过在数据流图上计算完成的

2020-11-22 17:28:26 1265

原创 Docker

Docker文章目录Dockerdocker介绍Docker架构docker 和虚拟机命名空间namespaces联合文件系统镜像和容器Docker常用命令参考docker介绍什么是docker?我们先看一下官方文档对docker的定义。翻译一下就是:Docker是一个集开发,发布和运行应用程序的开放平台。Docker能够分离应用和基础架构,从而可以使得用户可以快速交付软件。借助于Docker,用户可以以管理应用的方式管理基础架构。通过利用Docker快读交付,测试和部署代码的能力,用户可以大大地减少

2020-11-22 17:22:30 312 3

原创 docker 安装

前提:开发环境为虚拟机Ubuntu 16.04更换国内镜像虚拟机是刚刚安装的,需要先更换成国内镜像源。1. 首先备份原始源文件 sudo cp /etc/apt/sources.list /etc/apt/sources.list.bak2. 接着修改源文件sources.list sudo chmod 777 /etc/apt/sources.list 修改权限 sudo gedit /etc/apt/sources.list打开文件进行编辑,我选择的是阿里...

2020-11-02 22:07:50 285

原创 正则表达式

正则表达式正则表达式(Regular Expression)是一种文本模式,使用普通字符和特殊字符定义一个特殊的字符串来描述和匹配符合某个语法规则的字符串。正则表达式入门稍微难点,但是学会之后真的会提高效率,而且有满满的装逼感。常用语法下表的字符用来描述字符串或者单词的边界字符描述^匹配输入字行首$匹配输入行尾\b匹配一个单词边界,即字与空格间的位置\B非单词边界匹配()标记一个子表达式的开始和结束位置使用方括号来指定多个字符区间

2020-10-24 12:17:48 325

原创 CTC 的两种解码方法

CTC loss 应用于图像文字识别的训练过程中。在预测过程中,当输入xxx,我们希望能够得到使得p(l∣x)p\left( l | x \right)p(l∣x)概率最大的标签lll。在序列学习问题中,这个问题被称为解码,在有限的时间内得到条件概率最大的序列$l^{*} $。l∗=argmaxp(l∣x)l^{*} = argmax p\left( l | x \right)l∗=argmaxp(l∣x)假设有字符列表(′−′,′A′,′B′)\left( '-', 'A', 'B'\right

2020-10-24 12:02:17 3048 1

原创 k近邻和k-means

k近邻和k-means,听名称很相似,很容易张冠李戴。其实它们的全名为K近邻分类算法(k-Neighbour,KNN)和K均值聚类算法(K-means clustering algorithm)。k紧邻是一中基本的分类与回归算法,是监督学习算法,没有明显的训练学习过程。k-means是聚类算法,是无监督学习算法,有训练步骤。k近邻k近邻(k-neareast neighbor)的直观理解就是:给定一个训练数据集T={(xi,yi),⋯ ,(xn,yn)}T = \left \{ \left (

2020-10-24 11:49:02 9603

原创 隐马尔科夫模型

隐马尔可夫模型定义: 隐马尔可夫模型(hidden Markov model,HMM)是关于时序的概率模型,描述由一个隐藏的马尔可夫链随机生成不可预测的状态随机序列,再由各个状态生成一个观测从而产生观测随机序列的过程。隐藏的马尔可夫链随机生成的状态的序列,称为状态序列(state sequence);每一个状态生成一个观测,而由此产生的观测的随机序列,成为观测序列(observation sequence);序列的每一个位置又可以看作是一个时刻。隐马尔可夫有两个基本假设,其次隐马尔科夫假设和观测

2020-10-24 11:43:43 368

原创 CTC loss

CTC loss依据RNN网络的性质,每个时刻输出一个字符,RNN的最终输出是字符序列SSS,需要后处理才能得到标签TTT。在实际应用中,例如文字识别过程中,SSS和TTT的长度是变化的,且不是等长的,那么就需要一种算法来完成对齐操作。CTC算法能够自动地完成SSS和TTT对齐。假设训练数据集SSS的空间分布为DX×ZD_{X \times Z}DX×Z​,输入空间X=(R∗)∗X = \left( \mathbb{R}^{*} \right)^{*}X=(R∗)∗是mmm维实向量所有序列的集合,目标

2020-09-26 23:10:33 1159

原创 leetcode_11:链表

链表链表翻转反转一个单链表class Solution {public: ListNode* reverseList(ListNode* head) { ListNode* pre = NULL; ListNode* tmp = NULL; while(head){ tmp= head->next; ...

2020-03-17 21:22:41 163

原创 leetcode_10:并查集

并查集维基百科中的定义:在计算机科学中,并查集是一种树型的数据结构,用于处理一些不交集的合并及查询问题。有一个联合-查找算法(union-find algorithm)定义了两个用于此数据结构的操作:Find: 确定元素属于哪一个子集。它可以被用来确定两个元素是否属于同一子集Union: 将两个子集合并成同一个集合为每个集合选定一个固定的元素,称为代表,以表示整个集合。并查集是树型结构...

2020-03-16 20:46:50 328

原创 leetcode_9:二叉树

树二叉树的层次遍历给定一个二叉树,返回其按层次遍历的节点值。 (即逐层地,从左到右访问所有节点)。给定二叉树: [3,9,20,null,null,15,7],返回其层次遍历结果:[[3],[9,20],[15,7]]。思路: 二叉树有四种形态,单节点,只有左子树,或者只有右子树,或者左右子树都存在,所以需要把每一层的节点数目记录下来。数据结构选择队列,先进先出。/** * Defin...

2020-03-11 20:31:23 156

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除