![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
人工智能方面
文章平均质量分 88
爱吃面的猫
1
展开
-
深度学习中Transformer的注意力机制底层实现原理(超详细)
学习Transformer之前我们先看一下作者论文中的模型,如下图所示:本章内容主要是自己学习笔记,在学习过程中总结和整理,希望对各位有所帮助。本章学习从基础模型 Transformer 拆解,分析整个 Transformer 架构用到哪些模块,再把整个 Transformer 拼接起来。同时,图中的位置编码、矩形 和 Nx又是什么?这些模块又如何搭建起来呢?当真的有一个任务,又如何使用和完成的?例如在翻译任务中 Transformer 是如何完成的?原创 2024-04-27 20:26:40 · 930 阅读 · 0 评论 -
Pascal VOC(VOC 2012、VOC 2007) 数据集的简介
PascalVOC(2005~2012)数据集是PASCAL VOC挑战官方使用的数据集。该数据集包含20类的物体。每张图片都有标注,标注的物体包括人、动物(如猫、狗、岛等)、交通工具(如车、船飞机等)、家具(如椅子、桌子、沙发等)在内的20个类别。每个图像平均有2.4个目标,所有的标注图片都有目标检测需要的标签。VOC2007 与 VOC2012VOC2007:包含9963张标注过的图片, 由train/val/test三部分组成, 共标注出24,640个物体。原创 2024-04-17 20:28:56 · 1986 阅读 · 0 评论 -
经典目标检测YOLOV1理论基础的编码实现(通过编码理解原理)
首先了解数据集,对数据集了解后方便对数据进行相应处理。定义编码器主要目的是用于将边界框(归一化后的边界框信息)和标签编码为目标张量。在utils目录下创建工具类 yolo_dataset.py,中定义主函数进行测试,包含设置和加载一个自定义的Yolo_Dataset数据集,该数据集来源于VOC2012的JPEGImages文件夹。代码中首先导入了必要的模块和类,然后定义了数据集的根目录和预处理操作。接着,创建了一个Yolo_Dataset对象,并通过DataLoader类将其加载为可迭代的数据集。原创 2024-04-17 18:49:34 · 284 阅读 · 0 评论 -
【目标检测】YOLO系列-YOLOv1 理论基础 通俗易懂
为方便大家理解YOLO的原理,这里将YOLOv1的部分内容基础内容进行用比较直白的话和例子进行阐述,为后续大家学习YOLO作为铺垫。1、模型所干的活工作中,大家经常将 Word 文档 上传到某转换器,然后转换输出为PDF文档。目标检测中我们想做的事也类似,就是输入一张图,输出一张带有框(标注对应的物体)的图片。如下图所示:问题:这个框是如何还出来的呢?通过模型画出来的,这模型就相当于 word到pdf的转换器。如下图:进一步理解,需要不断调试,不断计算损失,看看在哪个位置画框最合适。原创 2024-04-17 12:02:43 · 674 阅读 · 0 评论 -
自然语言处理学习总结
存在问题:词的表示有时候有差异,如果apple表示水果,但也表示苹果公司。同时受限于词典的标注和范围及人工问题。词义的表示方法:近义词、反义词或隶属与的上位词等相关的词放到一起,表示这个词的词义。词表示:自然语言中最基本的语言单位表示成机器理解的方式。新的词义的表示方法是:one-hot编码,即向量。方式一:词与词之间的相似度。方式二:词与词之间的关系。原创 2024-03-18 23:13:46 · 1131 阅读 · 0 评论 -
01目标检测-问题引入
不管是图像分类还是目标检测,在使用深度学习技术进行处理的时候,都需要特征提取环节,对于经典的机器学习方法,通常会通过设计手动的特征,来完成特征提取,而深度学习往往通过卷积神经网络来完成特征的抽取。原创 2023-09-09 15:43:29 · 541 阅读 · 0 评论 -
02目标检测-传统检测方法
在目标检测算法的发展过程中基于手工特征的传统算法曾经是主流。这些传统算法通过设计和提取手工设计的特征来识别目标物体,包括Haar 特征、HOG 特征、SIFT特征等。本文将深入探讨目标检测算法中基于手工特征的传统算法介绍其原理、优缺点以及在计算机视觉中的应用。基于手工特征的传统目标检测算法是一类早期的目标检测算法,它通过人工设计和提取特征来识别目标物体。这些特征通常是基于图像的局部信息,如边缘、纹理、颜色等。在特征提取的基础上,传统算法通常使用。原创 2023-09-09 16:09:42 · 1794 阅读 · 0 评论 -
03目标检测-传统方法与深度学习算法对比
目标检测“是当前计算机视觉和机器学习领域的研究热点。从Viola-Jones Detector、DPM等冷兵器时代的智慧到当今RCNN、YOLO等深度学习土壤孕育下的GPU暴力美学,整个目标检测的发展可谓是计算机视觉领域的一部浓缩史。整个目标检测的发展历程已经总结在了下图中:可以看出,在2012年之前,在目标检测领域还是以传统手工特征的检测算法为主,但是随着卷积神经网络(CNN)在2012年的兴起,目标检测开始了在深度学习下的暴力美学。在深度学习下,目标检测的效果比传统手工特征效果好太多。原创 2023-09-11 10:09:47 · 1782 阅读 · 0 评论 -
04目标检测-Two-stage的目标检测算法
前面我们对进行了对比分析,同时上一篇我们介绍了传统算法在目标检测的原理和效果,此篇我们记录了我学习目标检测算法的深度,深入讲述一下深度学习算法在目标检测的原理和效果。原文链接:https://blog.csdn.net/qq_41946216/article/details/132800752。版权声明:本文为CSDN博主「爱吃面的猫」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。One-stage(YOLO和SSD系列):直接回归目标位置。原创 2023-09-11 10:15:31 · 1159 阅读 · 0 评论 -
05目标检测-区域推荐(Anchor机制详解)
在了解RPN网络前我们先了解一些相关概念。原创 2023-09-12 16:19:16 · 1646 阅读 · 0 评论 -
06目标检测-One-stage的目标检测算法
复杂的网络结构:经过LeNet又出现了LSNet、Resnet、Vgg等复杂的网络结构,这些网路结构往往是用来增加网络的深度,因为网络越深,非线性表达能力越强,得到物体更加抽象的表达,对于图像的变化敏感度越不敏感,鲁棒性越强,解决非线性任务能力越强,同时也会导致梯度消失或梯度弥散。输入图片------对图片进行深度特征的提取(主干神经网络)------对目标的位置进行定位和分类,One-stage和Two-stage的区别就在于是否包含了候选区域推荐的过程。原创 2023-09-12 16:49:16 · 1075 阅读 · 0 评论 -
07 目标检测-YOLO的基本原理详解
YOLO是一种新的目标检测方法。以前的目标检测方法通过重新利用分类器来执行检测。与先前的方案不同,将目标检测看作回归问题从空间上定位边界框(bounding box)并预测该框的类别概率。使用单个神经网络,在一次评估中直接从完整图像上预测边界框和类别概率。由于整个检测流程仅用一个网络,所以可以直接对检测性能进行端到端的优化。原创 2023-09-07 10:57:39 · 4893 阅读 · 3 评论 -
00人工智能学习目录
从发展历史到人工智能的应用案例,再到人工智能本质是数学问题,从房价预测问题提出损失函数由参数导致,再由损失函数的最优值入手引入梯度下降法,最后到多参数方程的最优求解。1、人工智能-电脑如何像人一样思考?从神经元的组成到MP模型()的建立,再到神经网络模型。2、人工智能-神经网络。原创 2023-07-14 08:15:11 · 379 阅读 · 0 评论 -
01人工智能-背景入门
当然这一次的人工智能复苏和发展是得益于最近几十年计算机科学以及各种算法的改进,尤其是在人工智能算法领域,比如加拿大多伦多大学的辛顿,将反向传播算法BP引用于人工智能,纽约大学的杨立坤,将卷积神经网路引用于人工智能,加拿大蒙特利尔大学的本吉奥。图灵测试:让一个人和两个东西交流,通过一系列的提问和回答,让此人判断这两个东西中,哪个是真人,哪个是机器。通过判断,如果这个人无法判读是真人还是机器的时候,就说明这个机器通过了图灵测试。经过发展在特定领域如图像识别领域,语音识别领域等,都有长足发展。原创 2023-07-13 15:14:58 · 248 阅读 · 0 评论 -
02人工智能-神经网络、激活函数
n)取值0或1,分别表示该神经元的抑制和兴奋,每个神经元的状态都受其他神经元的制约,单个的感知器(也叫单感知机)就构成了一个简单的模型(MP模型),但在现实世界中,实际的决策模型则要复杂得多,往往是由多个感知器组成的多层网络,如下图所示,这也是经典的神经网络模型(也叫多感知机,也叫人工神经网络),由输入层、隐含层、输出层构成。Tanh是双曲函数中的一个,Tanh()为双曲正切。每两层的神经网络连接都会有大量的参数,通过一定的算法,能让大量的参数调节到最优,使得最后的误差函数最小,这样就是一个成功的训练。原创 2023-07-14 00:59:05 · 7077 阅读 · 1 评论 -
03人工智能-反向传播
BP算法的学习过程由正向传播过程和反向传播过程组成。在正向传播过程中,输入信息通过逐层处理并传向输出层。如果在输出层得不到期望的输出值,则通过构造输出值与真实值的损失函数作为目标函数,转入反向传播,逐层求出目标函数对各神经元权值的偏导数,构成目标函数对权值向量的梯度,作为修改权值的依据,网络的学习在权值修改过程中完成。输出值与真实值的误差达到所期望值时,网络学习结束。原创 2023-07-14 15:33:44 · 280 阅读 · 0 评论 -
04人工智能-卷积神经网络(CNN)原理详解
但通过前面学过神经网络模型和梯度下降法的方法训练费时费力,而且一旦图片进行改变如缩放、旋转或其他变换,那么计算机就识别不出来了。那么人如何记住的呢?光从眼睛进入后,先计入第一皮层,在进第二皮层,直到最后一个皮层,每个皮层对信号处理的方式是不一样的。杨立昆根据这个神经认知模型流程原理(先输入,提取边缘特征,组合组轮廓和细节,在组合轮廓与细节成整体,最后进行判断)发明一种实用的图像识别方法,就是。1981年休伯尔和威泽尔做过实验,给动物看不同图片,观察跟视觉相关的大脑中的细胞变化,主要分为两种。原创 2023-07-14 23:30:35 · 1425 阅读 · 3 评论 -
计算机视觉的图像标注与视觉任务
计算机视觉是一种利用计算机和数学算法来模拟人类视觉的技术,可以应用于许多领域。原创 2023-07-13 10:42:06 · 913 阅读 · 0 评论 -
图片识别工具Tesseract与使用
Tesseract工具是一个图片识别工具, 由HP实验室开发 由Google维护的开源的光学字符识别(OCR)引擎。它可以直接使用,或者(对于程序员)使用 API 从图像中提取输入,包括手写的或打印的文本。与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练语言,提高图像转换文本的能力。Tesseract工具环境安装分为win和python。原创 2023-05-31 23:33:19 · 2178 阅读 · 0 评论