自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 收藏
  • 关注

原创 Transformer详解encoder

最近刚好梳理了下transformer,今天就来讲讲它~Transformer是谷歌大脑2017年在论文attention is all you need中提出来的seq2seq模型,它的本质就是由编码器和解码器组成,今天的主角则是其中的编码器(在BERT预训练模型中也只用到了编码器部分)如下图所示,这个模块的输入为 𝑋 (每一行代表一个句子,batchsize有多大就有多少行),我们将从输入到隐藏层按照从1到4的顺序逐层来看一下各个维度的变化。

2024-06-30 20:57:58 736

原创 一文搞懂Transformer-decoder

每个步骤的输出都会在下一个时间步骤中被传递给底层解码器,解码器们会像编码器一样层层传递解码结果,并且,就像我们对编码器输入所做的那样,我们对这些解码器输入进行嵌入和添加位置编码,以指示每个单词的位置。在这里,引入了两个新的token,分别是<|im_start|>和<|im_end|>,此外,解码器一次只能接受一个token作为输入,也就是说,<|im_start|>会被作为一个输入,而"太”就是下一个预测token。根据我们的计算,解码器预测的单词是"太",它的Token是8192和103。

2024-06-29 08:43:48 1226

原创 自注意力机制(Self-Attention)

Transformer模型中最关键部分就是自注意力(Self-Attention)机制,正如 Transformer 的论文的标题是“Attention Is All You Need”!以文本问题为例来讲解这个机制。在处理文本问题时,自注意力机制会告诉模型:在处理句子中的每个单词时,特别关注某些重要的单词,并或多或少地忽略其它单词。简单来说,就是给句子中不同单词分配不同的权重。

2024-06-28 08:33:22 1035

原创 LSTM理解

本文将从LSTM的本质、LSTM的原理、LSTM的应用三个方面,带您一文搞懂长短期记忆网络Long Short Term Memory | LSTM。

2024-06-27 10:42:18 1020

原创 一文读懂循环神经网络(RNN)

循环神经网络(Recurrent Netural Network,Rnn)是一类具有短期记忆能力的神经网络。在RNN中,神经元不但可以接受其他神经元的信息,也可以接受自身的信息,形成具有环路的网络结构,RNN由此得名。循环神经网络已经被广泛应用在语音识别、语言翻译以及图片描述等任务上。为了处理时序数据并利用其历史信息,我们需要让网络具有短期记忆能力。而前馈网络是一种静态网络,不具备这种记忆能力。RNN基本结构如下:

2024-06-26 19:42:33 1043

原创 一文概括常用图像处理算法

本文总结了11种常用的算法,包含了预处理算法以及检测算法,并介绍了一些常用的开发库。

2024-06-25 14:00:00 1258

原创 传统图像特征描述及提取方法

图像的面特征是图像的重要特征之一,它把图像中较明显的局部区域信息视为特征。图像的标准差反映了图像像素灰度相对于灰度均值的离散程度,也反映了图像对比度的强弱,标准差越大,意味着图像的灰度级分布越分散,图像的对比度越大。点特征是图像中最基本的特征,它是指哪些灰度信号在二维方向上都有明显变换的点,这是一种比较简答的图像特征,也称为关键点等。2) 图像的特征向量应该是基于图像整体的,特征向量的分布必须是均匀的,而不是只集中再图像的某一局部区域;是一幅图像区别于另一幅图像最基本的特征,是其可以作为标志性的属性。

2024-06-22 08:55:34 1189

原创 卷积和池化

(1)卷积对于卷积经过某层后的特征图大小计算方式:h2 = (h1-k+2p)/s + 1 w2 = (w1-k+2p)/s + 1总结:卷积输出大小=[(输入大小-卷积核大小+2*Padding)/步长]+1 所以当stride为1时,当卷积核的大小比padding的两倍大1时,可以不改变特征图的尺寸,只改变通道数。卷积的计算过程非常简单,当卷积核在输入图像上扫描时,将卷积核与输入图像中对应位置的数值逐个相乘,最后汇总求和,就得到该位置的卷积结果。不断移动卷积核,就可算出各个位置的卷积结果。

2024-06-21 20:58:26 900

原创 深度学习原理

AIGC(Artificial Intelligence Generated Content,即人工智能生成内容)是一种利用人工智能技术自动创建文本、图像、音频和视频等内容的技术。AIGC的核心是通过机器学习和深度学习算法,让计算机模型学会理解和生成人类语言,从而能够自动产生有价值的内容。这是几个关键概念的关系:生成式AI系统的设计通常基于神经网络模型,尤其是自然语言处理(NLP)领域的模型。这些模型的设计灵感往往来源于人脑的结构和功能,通过模拟神经元的连接和信息传递机制,构建复杂的网络结构。

2024-06-21 18:57:39 1186

原创 单阶段目标检测--NMS

在目标检测的初始结果中,同一个物体,可能对应有多个边界框 (bounding box,bb),这些边界框通常相互重叠。非极大值抑制的大体思路就像其名一样,对于多个边界框,以置信度 (class score)最大的那个框为准,其他与之重合度高的框,则认为它们检测 的是同一个物体,将其他框除掉,也就是抑制掉。3. 剩下的框中,同样找置信度最大的框,为第2个框,抑制掉重合的框;4. 反复执行上述步骤,直到剩下最后一个框,此亦为目标框。1. 找到置信度最大的框,该框肯定是目标,得到第1个框;

2024-06-20 09:49:18 610

原创 单阶段目标检测-iou

也就是说,这个标准用于测量真实和预测之间的相关度,相关度越高,该值 越高。绿色标线是人为标记的正确结果(ground-truth),红色 标线是算法预测的结果(predicted)。IoU是 一个简单的测量标准,只要是在输出中得出一个预测范围(bounding boxex)的 任务都可以用IoU来进行测量。由此,模型推测的结果和目标之间就会出 现一个误差,而评价这个误差程度的方法就是IoU。IoU是两个区域重叠的部分除以两个区域的集合部分得出的结果,通过设定 的阈值,与这个IoU计算结果比较。

2024-06-20 08:16:54 631

原创 机器学习算法的应用场景

选择适合的算法取决于具体的问题、数据的特性和性能要求,通常需要根据问题的具体情况来选择和调整适合的算法。另外,个人的习惯也会影响对算法的选择。为了方便非专业的朋友阅读,我会从算法分类到主流算法举例来展开,预计20分钟的阅读,你会大概对众多繁复的机器学习算法有一个基础认识,了解当下流行的算法应用场景。NLP的应用主要包括:对话系统和聊天机器人(如GPT-3),内容推荐和个性化,自然语言理解(NLU),机器翻译,文本生成,情感分析和社交媒体监控,语音识别和处理,知识图谱和信息检索等。

2024-06-18 20:22:54 1359

原创 深度学习基础

卷积过程是使用一个卷积核(如图中的Filter),在每层像素矩阵上不断按 步长扫描下去,每次扫到的数值会和卷积核中对应位置的数进行相乘,然后相 加求和,得到的值将会生成一个新的矩阵。卷积核相当于卷积操作中的一个过 滤器,用于提取我们图像的特征,特征提取完后会得到一个特征图。卷积核的 大小一般选择3x3和5x5,比较常用的是3x3,训练效果会更好。

2024-06-17 11:10:45 894

原创 讲解 Faster R_CNN原理:

可以看到 Conv2 是用不到的,和我们理解的一致(尺度太大),而特征提取是 通过 L2 Norm + Scale + 1x1 Conv 得到,因为不同 Feature 之间的尺度不一致,Norm 是必须的,通过 归一化 和 Scale 进行特征提取后,送到 FC全连接层进行 分类和回归,如上图所示。多尺度特征提取是本文的核心点,作者的方法稍微有所不同,他是以中间的 Feature 尺度为参考,前面的层通过 Max Pooling 到对应大小,后面的层则是通过 反卷积(Deconv)进行放大。

2024-06-16 19:42:47 1087

原创 讲解R_CNN原理

表现在VOC2007数据集上的平均精确度达到66%1、训练阶段多:步骤繁琐: 微调网络+训练SVM+训练边框回归器。2、训练耗时:占用磁盘空间大:5000张图像产生几百G的特征文件。(VOC数据集的检测结果,因为SVM的存在)3、处理速度慢: 使用GPU, VGG16模型处理一张图像需要47s。4、图片形状变化:候选区域要经过crop/warp进行固定大小,无法保证图 片不变形。

2024-06-16 19:18:29 704

原创 深度学习之---迁移学习

迁移学习(Transfer Learning)是一种机器学习方法,就是把为任务 A 开发 的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过 从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算 法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学 习社区持续关注的话题。迁移学习对人类来说很常见,例如,我们可能会发现 学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

2024-06-15 08:54:25 1112

原创 深度学习网络结构之---Inception

通过 堆叠两层3 × 3 3\times33×3的卷积核可以替代一层5 × 5 的卷积核,堆叠三层 3 × 3 的卷积核替代一层 7 × 7 的卷积核,可以看出,大卷积核完全可以由一系列 的3 × 3 卷积核来替代,那能不能再分解得更小一点呢?从上图可以看出,计算量主要来自高维卷积核的卷积操作,因而在每一个 卷积前先使用1 × 1卷积核将输入图片的feature map维度先降低,进行信息压 缩,在使用3x3卷积核进行特征提取运算,相同情况下,Inception v1的计算量 仅为358M。

2024-06-15 08:32:38 751

原创 yolo模型评估指标相关概念

我 们这步针对所有经过score threshold筛选出的预测框,针对一个预测框来讲, 如果边界框位置大小与某个GT非常相似(检测框与GT的IoU ≥ IoU threshold),那么我们就认为这个框就是一个正确的检测结果,并将其与该GT 配对,TP即为这类检测框的数量。人工设定的IoU阈值。这也解释了为什么在计算TP时,同一个GT只对应一个正确的检测框 TP,如果允许一个GT对应多个正确的预测框,假如对于每个GT都存在大于一个 的正确预测框数,那么最终得到的召回率很明显会大于1,这是不符合常理的。

2024-06-14 16:17:38 1013

原创 yolo系列的发展史

定义:YOLO(You Only Look Once)个算法的名字就很形象——你只看一次(You Only Look Once),意味着它通过一次检测过程就能处理整张图片,而不需要像以前的算法那样分步骤处理。是一种单阶段(one-stage)的目标检测算法,其核心思想是将目标检测任务视为一个回归问题,通过单个神经网络直接预测图像中的物体类别和边界框。

2024-06-14 08:50:32 1434

原创 人工智能、神经网络之间的联系

人工智能是让机器获得像人类一样具有思考和推理机制的智能技术,这一概念最早出现在 1956 年召开的达特茅斯会议上。其中深度学习可以理解为神经网络。刚开始只有神经网络的概念,随着神经网络的层数增加,就逐渐将神经网络叫做深度学习。神经网络的发展历程大致分为浅层神经网络阶段和深度学习阶段。

2024-06-13 14:31:12 866

原创 transformer和Non-local

如下可,我们可以看到,两者都对图像进行了分块,不同的是swin-transformer先分了大块,再在大块里面分小块,而VIT就只分为固定的快,然后他们在做self-attention的时候,其实是算的块与块之间的注意力,但值得注意的是swintranformer只算每一个大块里面的小块之间的注意力,也就是大块与大块之间不做注意力计算。1:首先说Non-local,它是像素级别的self-attention,算的是图片中各个像素点对指定像素点的影响;

2024-06-13 11:48:03 321

原创 计算机相关专业的探讨

如果你对计算机感兴趣,具备相关能力,并有明确的职业规划和个人特点,那么选择计算机相关专业将是一个明智的决策。当然,在做出选择之前,你也可以通过咨询专业人士、参加相关活动或实习等方式,进一步了解该专业的实际情况和发展前景,以确保你的选择更加明智和准确。其次,要关注行业的发展趋势和市场需求,以及自己的职业规划和发展目标,做出合理的选择。因此,在选择专业时,除了考虑自己的兴趣和能力外,还需要关注行业的发展趋势和市场需求,以及自己的职业规划和发展目标。同时,网络安全、数据隐私等问题也需要得到更多的关注和解决。

2024-06-12 16:18:35 1062

原创 语义分割和目标检测的关系

分类最终体现在对每个潜在框分类的11channel上,每个channel代表一个 分类,取值最大的channel作为最终分类;位置信息会用4个值来保存:被分类 的物体中它的框的坐标则为左上角的x和y坐标,以及宽和高的尺寸。对于语义分割来说,它提供的信息中位置信息和分类信息是有重叠的,即 通过标记每个像素的分类,同时也达到提供位置信息。目标检测的任务是对输入的图像进行物体检测,标注物体在图像上的位 置,以及该位置上物体属于哪个分类。语义分割的任务是对输入的图像进行逐像素的分类,标记出像素级别的物体。

2024-06-12 09:35:03 899 1

原创 目标检测中的anchor机制

在介绍Anchor之前,我们先介绍一下传统的人脸识别算法,是怎么检测出 图片中的人脸的。以下图为例,如果我们要检测图中小女孩的人脸位置,一个 比较简单暴力的方法就是滑窗,我们使用不同大小、不同长宽比的候选框在整 幅图像上进行穷尽式的滑窗,然后提取窗口内的特征(例如Haar、LBP、Hog 等特征),再送入分类器(SVM、Adaboost等)判断该窗口内包含的是否为人 脸。这种方法简单易理解,但是这类方法受限于手动设计的特征,召回率和准 确率通常不是很高。

2024-06-12 09:17:55 1008

原创 Fast R-CNN 与 R-CNN的不同之处

同理,在训练Fast R-CNN时,如果数据中全部都是正样本,那么网络就会 很大概率认为候选区域是所需要检测的目标(可能这个框明明框住的是背景, 但网络仍会认为这个被框住的背景是有用的,是一个前景),这时网络肯定会 出问题。对于采样数 据,它分为“正样本”和“负样本”。这样处理对输入特征图的尺寸没有要求了,无论怎样都可以缩放到7×7 -> 在R-CNN中,输入图像被限定为227×227,而在Fast R-CNN中,输入图像尺寸 不再被限制。这64 个候选框,一部分框的是正样本,一部分框的是负样本。

2024-06-11 11:33:23 958

原创 人工智能和机器学习的区别

先来说下人工智能,人工智能(Artificial Intelligence),英文缩写为AI,通俗来讲就是用机器去做在过去只有人能做的事。人工智能最早是由图灵提出的,在1950年,计算机科学之父,人工智能科学之父,艾伦▪图灵发表了一篇论文:Computing Machinery and Intelligence(计算机器与智能),这篇文章开启了计算机与智能模拟的科学讨论。人工智能在当时只是理论设想,能够落地连图灵自己都不知道。图灵在文章的第一句就提出一个疑问:"Can machines think?

2024-06-11 11:21:20 1291

原创 数据库知识点和一些命令以及使用步骤

----子查询的结果只多个值,等于其中的任意一个值。(1)显示内连接:select 字段 from 表名1 inner join 表名2 on 两个表连接的条件 [where 其他查询的条件];(1)左外连接:select 字段 from 表名1 left join 表名2 on 两个表连接的条件 [where 其他查询的条件];-----子查询的结果只有一个值。库(建库,查看,修改-字符编码,删除)—>表(建表,查看,修改-表名、字段,删除)—>数据(插入、修改、删除、查询)------% _

2024-06-10 20:09:44 742

原创 典型语义分割算法

目录一、 FCN全卷积网络二、 SegNet三、U-Net 四、DeepLab V1五、 DeepLab V2六、 DeepLab V3七、Mask R-CNN八、PSPNet九、 RefineNet一、 FCN全卷积网络全卷积网络FCN在会议CVPR 2015的论文 中提出.它将CNN分类网络(AlexNet, VGG 和 GoogLeNet)修改为全卷积网络, 通过对分割任务进行微调,将它们学习的表征转移到网络中

2024-06-10 19:08:53 703

原创 语义分割常见应用

典型的「卷积」运算将采用滤波器视图中当前值的点积并为相应的输出位 置产生单个值,而「转置卷积」基本是相反的过程:我们从低分辨率特征图中 获取单个值,并将滤波器中的所有权重乘以该值,将这些加权值投影到输出要 素图中。对于深度卷积网络,浅层主要学习低级的信息,随着网络越深,学习到更 高级的特征映射。图像分割领域现在较为流行的是编码器解码器结构,其中我们对输入的空 间分辨率进行下采样,生成分辨率较低的特征映射,它能高效地进行分类,而 后使用上采样将特征还原为全分辨率分割图。分割网络的评价指标:mAcc。

2024-06-08 08:19:37 1027

原创 了解语义分割

下图展示了图像分类、语义分割、目标检测、实例分割四种任务(图片来 自【1】):上图展示了四种任务的研究目标,具体如下:图像分类:判别图中物体是什么,比如是猫还是狗;语义分割:对图像进行像素级分类,预测每个像素属于的类别,不区分 个体;目标检测:寻找图像中的物体并进行定位;实例分割:定位图中每个物体,并进行像素级标注,区分不同个体;

2024-06-07 19:38:12 629

原创 YOLOv5中 FOCUS模块

Focus层原理和PassThrough层很类似。它采用切片操作把高分辨率的图片 (特征图)拆分成多个低分辨率的图片/特征图,即隔列采样+拼接。原理图如 下:原始的640 × 640 × 3的图像输入Focus结构,采用切片(slice)操作,先 变成320 × 320 × 12的特征图,拼接(Concat)后,再经过一次卷积(CBL(后 期改为SiLU,即为CBS))操作,最终变成320 × 320 × 64的特征图。

2024-06-07 11:08:22 911

原创 yolov5网络结构

gain = torch.ones(7, device=targets.device),gain是输出的channel数, 包含image,class,x,y,w,h,conf。我们知道目标检测难点一直是对小目标的检测定位,主要原因是, 第一,coco数据集中大中小目标占比不均衡,小目标的数量很多,但出现的频 率却很低,这导致bp时对小目标的优化不足。作者提出Mosaic,随机使用4张图片,随机缩放,再随机分布进行拼接,大 大丰富了检测数据集,特别是随机缩放增加了很多小目标,让网络的鲁棒性更 好。

2024-06-06 19:14:09 973

原创 前二十名图灵奖获得者

1.艾伦·佩利(Alan J.Perlis 1922年4月1日-1990年2月77日),美国计算机程序设计领域科学家。ALGOL语言和计算机科学的“催生者”,由于在ALGOL语言的定义和扩充上所作出的重大贡献,以及在创始计算机科学教育使计算机科学成为一门独立的学科上所发挥的巨大作用,1966年成为首届图灵奖获得者,2。

2024-06-06 07:56:59 1047

原创 常用的专业术语及程序员必学英语词汇(持续更新)

n. 圆,(某种圆形)交谊舞,常规活动,一局(轮) adj. 圆的,微胖的,完整的,坦率的,圆满完成的 adv. 环形地 vt. 弄圆,绕行,使...完全,使成为整数 vi. 变圆(胖),弯曲 prp. 围绕,遍及。vt.& vi.阅读,朗读;n. 水平,等级,标准,层次 adj. 平坦的,齐平的,稳定的,合理的,满满的 vt. 压平,使同等,瞄准,夷为平地,推翻, 指责 vi. 趋向平稳, 瞄准, 诚恳待人, 使平等。adj.快的,急速的;vt.& vi.(使)下决心,(使)做出决定 vt.决定,确定;

2024-06-05 16:52:20 711

原创 yolov5模型原理

如下图所示YOLOv5 网络框架。而原始的缩放方法存在着 一些问题,由于在实际的使用中的很多图片的长宽比不同,因此缩放填充之 后,两端的黑边大小都不相同,然而如果填充的过多,则会存在大量的信息冗 余,从而影响整个算法的推理速度。Mosaic数据增强利用四张图片,并且按照随机缩放、随机裁剪和随机排布 的方式对四张图片进行拼接,每一张图片都有其对应的框,将四张图片拼接之 后就获得一张新的图片,同时也获得这张图片对应的框,然后我们将这样一张 新的图片传入到神经网络当中去学习,相当于一下子传入四张图片进行学习了。

2024-06-05 08:28:01 1212

原创 Resnet跑cifar10数据集环境配置及数据对比(保姆级教程)

建议一个项目创建一个虚拟环境,这样会更加方便。

2024-06-05 07:56:42 167

原创 人工智能三次浪潮

在很多模式识别的领域、手写文字的识别、字符识别、简单的人脸识别也开始用起来,这个领域一下子就热起来,一时之间,人们感觉人工智能大有可为。在某一定值以下,就不会兴奋。然而逻辑主义最后无法解决实用的问题,达不到人们对它的期望,引起了大家的反思,这时候人工神经网络(也就是联结主义)就慢慢占了上风。要想证明这些问题,需要把原来的条件和定义从形式化变成逻辑表达,然后用逻辑的方法去证明最后的结论是对的还是错的,也叫做逻辑证明。是指在各方面都能和人类比肩的人工智能,这是类似人类级别的人工智能,也叫通用人工智能。

2024-06-04 18:56:36 1028 1

原创 人工智能有关计算机视觉的名人

2010年至2020年二次担任美国视觉、认知科学、AI领域跨学科合作项目MURI首席科学家;朱松纯的主要研究包括通用人工智能基础、计算机视觉、统计建模与计算、认知科学、机器学习、自主机器人等,长期致力于构建人工智能科学的统一数理框架( [3])。朱松纯(Song-Chun ZHU),1968年出生于湖北鄂州( [22]),博士,计算机视觉专家、统计与应用数学家、人工智能专家,( [18]),并当选为电气和电子工程师学会会士( [50])。1998年至2002年担任。

2024-06-04 18:36:15 844 1

原创 数据增强和泛化能力

模型泛化是指机器学习模型对新的、未见过的数据的适应能力。在机器学习中,我们通常会将已有的数据集划分为训练集和测试集,使用训练集训练模型,然后使用测试集来评估模型的性能。例如在图像分类任务中,对于输入的图像可以进行一些简单的平移、缩放、颜色变换等操作,这些操作不会改变图像的类别,但可以增加训练样本的数量。在深度学习中,要求样本数量充足,样本数量越多,训练出来的模型效果越好,模型的泛化能力越强。在深度学习中,数据增强是通过一定的方式改变输入数据,以生成更多的训练样本,从而提高模型的泛化能力和效果。

2024-06-04 09:55:59 353

原创 机器视觉顶级会议及顶级期刊

International Comference on Computer Vision,国际计算机视觉会议,是公认的三个会议中级别最高的,收录率一般在20%左右,由IEEE主办。【收录论文的内容:底层视觉与感知,颜色、光照与纹理处理,分割与聚合,运动与跟踪,立体视觉与运动结构重构,基于图像的建模,基于物理的建模,视觉中的统计学习,视频监控,物体、事件和场景的识别,基于视觉的图形学,图片和视频的获取,性能评估,具体应用等。国际计算机视觉模式识别会议。

2024-06-04 08:44:41 1365

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除