自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 收藏
  • 关注

原创 C++——NV12(YUV)格式转换为RGB/RGBA格式

YUV图片的NV12格式转换为RGB/RGBA图片格式。

2024-07-09 14:45:28 401

原创 C++——时间戳转年月日时分秒格式

【代码】C++——时间戳转年月日时分秒格式。

2024-06-27 17:08:25 545

原创 问题记录——RuntimeError: Error(s) in loading state_dict for ResNet: Missing key(s) in state_dict:...

关于model.load_state_dict(checkpoint['state_dict'])的使用问题

2024-04-23 10:12:55 812

原创 神经网络学习笔记10——RNN、ELMo、Transformer、GPT、BERT

自然语言处理(Natural Language Processing,简称NLP)是用计算机来处理、理解以及运用人类语言(如字符、中文、英文等),它属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。人类语言是抽象的信息符号,其中蕴含着丰富的语义信息,人类可以很轻松地理解其中的含义。而计算机只能处理数值化的信息,无法直接理解人类语言,所以需要将人类语言进行数值化转换。不仅如此,人类间的沟通交流是有上下文信息的,这对于计算机也是巨大的挑战。

2024-04-03 15:42:23 1805

原创 AI嵌入式3——君正T40之MIPS32架构交叉编译opencv4篇

想要编译安装的顺利,需要好好捋一捋配置

2024-01-09 17:48:42 1930

原创 AI嵌入式2——SIPEED MaixCube(Kendryte K210)之基础使用篇

MaixCube嵌入式集成了摄像头、TF卡槽、用户按键、TFT显示屏、锂电池、扬声器麦克、扩展接口等, 用户可使用 Maix Cube 部署一些轻轻轻轻轻量级AI项目, 同时还预留开发调试接口, 也能将其作为一款功能强大的 AI 学习开发板。

2024-01-05 17:36:58 1385

原创 视觉学习笔记13——既是模型,又是模型中转站的onnx

Open Neural Network Exchange(ONNX,开放神经网络交换)格式,是一个用于表示深度学习模型的标准,可使模型在不同框架之间进行转移。它是一种针对机器学习所设计的开放式的文件格式,用于存储训练好的模型。它使得不同的人工智能框架(如Pytorch, MXNet)可以采用相同格式存储模型数据并交互。ONNX的规范及代码主要由微软,亚马逊,Facebook和IBM等公司共同开发,以开放源代码的方式托管在Github上。

2023-12-27 09:43:24 595

原创 视觉学习笔记12——百度飞浆框架的PaddleOCR 安装、标注、训练、测试以及onnx转换

飞桨首次开源文字识别模型套件PaddleOCR,目标是打造丰富、领先、实用的文本识别模型/工具库。 PaddleOCR是一个基于飞桨开发的OCR(Optical Character Recognition,光学字符识别)系统。其技术体系包括文字检测、文字识别、文本方向检测和图像处理等模块。

2023-12-09 08:40:03 4307 2

原创 AI嵌入式1——君正T40之基础使用篇

近年来,随着深度学习的突破,人工智能得到了快速发展。人工智能作为一种通用计算技术,正在与各行各业融合,正在世界上掀起又一场工业革命。嵌入式系统是指“嵌入”在应用中的计算机系统。嵌入式系统和传统PC的不同之处在于它通常针对特定应用配备专用软硬件接口,在运算速度、存储容量、可靠性、功耗、体积方面的要求和通用PC有明显差别。我们在日常生活中随处可见嵌入式系统,比如智能手机、万用表、无人机控制系统、电信交换机、洗衣机、智能电视、汽车控制系统、医用CT设备等。

2023-06-13 15:07:52 2225 2

原创 杂谈2——AIGC的反面思考 与AI生成图像检测技术

检测人工智能生成的图像的最大挑战之一是它们可能非常逼真,难以与真实图像区分开来。这是因为人工智能模型变得越来越复杂,并且能够生成与真实的图像在视觉上相似的图像。

2023-05-30 15:41:07 1264

原创 视觉学习笔记11——TensorRT安装配置及使用

一般的深度学习项目,训练时为了加快速度,会使用多 GPU 分布式训练。但在部署推理时,为了降低成本,往往使用单个 GPU 机器甚至嵌入式平台(比如 NVIDIA Jetson)进行部署,部署端也要有与训练时相同的深度学习环境,如 caffe,TensorFlow 等。由于训练的网络模型可能会很大(比如,inception,resnet 等),参数很多,而且部署端的机器性能存在差异,就会导致推理速度慢,延迟高。这对于那些高实时性的应用场合是致命的,比如自动驾驶要求实时目标检测,目标追踪等。

2023-05-26 16:48:26 1377

原创 杂谈3——深度学习中使用GPU的建议

深度学习是一个对计算有着大量需求的领域,从一定程度上来说,GPU的选择将从根本上决定深度学习的体验。但问题来了,如何选购合适的GPU也是件头疼烧脑的事。怎么避免踩雷,如何做出性价比高的选择?

2023-05-16 09:26:04 1332

原创 问题记录——TypeError: buffer is too small for requested array

查了很多地方,对此有很多原因可以造成这种报错,比如:1、cfg文件与模型文件不匹配2、文件名或者路径名不合规导致3、模型训练时,数据缺失4、onnx的操作符不完整。

2023-05-15 16:31:23 1259

原创 视觉学习笔记10——opencv的卸载、安装与多版本管理

之前在ubuntu18系统上已经安装了opencv4.4.0和扩展库opencv_contrib,但是最近需要跑一个SLAM的源代码,而这个SLAM系统是基于opencv3.4.2开发的,直接运行会出现很多opencv版本不兼容的问题。因此想再安装opencv3.4.2和扩展库opencv_contrib3.4.2,过程中出现了很多问题,写这篇文章记录一下。

2023-03-15 23:18:20 9703 2

原创 杂谈1——深度学习简易知识积累

浅浅记录一些知识,一方面做一些分享与自己的思考,另一方面作为笔记记录下来。

2023-02-16 15:15:48 224

原创 神经网络学习笔记9——循环神经网络中的LSTM与GRU模型理解及代码解析

循环神经网络(Recurrent Neural Network,RNN)是一种用于处理序列数据的神经网络。相比一般的神经网络来说,他能够处理序列变化的数据。比如某个单词的意思会因为上文提到的内容不同而有不同的含义,RNN就能够很好地解决这类问题。LSTM是RNN的一种,可以解决RNN长序列训练过程中的梯度消失和梯度爆炸问题,当一条序列足够长,那RNN将很难将信息从较早的时间步传送到后面的时间步,而LSTM能学习长期依赖的信息,记住较早时间步的信息,因此可以做到联系上下文。

2022-12-28 16:49:08 2746

原创 神经网络学习笔记8——FPN理论及代码理解

特征金字塔(Feature Pyramid Networks, FPN)的基本思想是通过构造一系列不同尺度的图像或特征图进行模型训练和测试,目的是提升检测算法对于不同尺寸检测目标的鲁棒性。但如果直接根据原始的定义进行FPN计算,会带来大额的计算开销。为了降低计算量,FPN采用一种多尺度特征融合的方法,能够在不大幅度增加计算量的前提下,显著提升特征表达的尺度鲁棒性。

2022-12-24 11:45:42 1471

原创 视觉学习笔记9——边缘分离式计算EdgeSLAM结合ORBSLAM3

众所周知,视觉 SLAM 在内存和处理时间方面是资源密集型的。此外,一些操作随着时间的推移变得越来越复杂,这使得在移动设备上连续运行变得具有挑战性。边缘计算为移动设备提供额外的计算和内存资源,以允许卸载某些任务,而不会出现卸载到云时出现的大延迟。Edge-SLAM是一种使用边缘计算资源来卸载部分 Visual-SLAM 的系统。使用 ORB-SLAM3 作为原型 Visual-SLAM 系统,并将其修改为边缘和移动设备之间的分离架构。

2022-12-02 20:44:56 2606 4

原创 神经网络学习笔记7——目标检测,语义分割和实例分割中的RCNN、Fast RCNN、Faster RCNN、FCN和Mask RCNN

计算机视觉中关于图像识别有四大类任务:(1)分类-Classification:解决“是什么?”的问题,即给定一张图片或一段视频判断里面包含什么类别的目标。(2)定位-Location:解决“在哪里?”的问题,即定位出这个目标的的位置。(3)检测-Detection:解决“在哪里?是什么?”的问题,即定位出这个目标的位置并且知道目标物是什么。(4)分割-Segmentation:分为实例的分割(Instance-level)和场景分割(Scene-level),解决“每一个像素属于哪个目标物或场景”

2022-11-26 11:53:06 4808

原创 神经网络学习笔记6——生成式AI绘画背后的的GAN与Diffusion初解

AI绘画,目前AI领域里最有话题性的技术,上一个这么火的话题是swin transformer网络,而2022年8月Jason Allen凭借AI绘画作品《太空歌剧院》拿下科罗拉多州博览会美术竞赛一等奖,瞬间引爆社会争论。后来10月19日,Jasper.ai 宣布完成了 1.25 亿美元的A 轮融资,估值达到了 15 亿美金,而 Jasper AI 从产品上线到现在也就 18 个月时间。

2022-11-19 10:01:47 6716

原创 视觉学习笔记8——暗网darknet的使用与cfg文件解析

darkent是个轻量级深度学习训练框架,用c和cuda编写,支持GPU加速。你可以理解为darknet和tensorflow, pytorch, caffe, mxnet一样,是用于跑模型的底层,像resnet、yolo是模型结构,是一种训练网络。

2022-10-29 10:57:34 1544

原创 神经网络学习笔记5——Swin-Transformer网络

Swim Transformer是特为视觉领域设计的一种分层Transformer结构。Swin 的两大特性是滑动窗口和分层表示。滑动窗口在局部不重叠的窗口中计算自注意力,并允许跨窗口连接。分层结构允许模型适配不同尺度的图片,并且计算复杂度与图像大小呈线性关系,也因此被人成为披着transformer皮的CNN。

2022-10-21 16:46:00 10019

原创 神经网络学习笔记4——GNN图神经和GCN图卷积网络

图是一种对节点和节点间关系建模的数据结构,是机器学习中唯一的非欧几里得数据,图分析可用于节点分类、链接预测和聚类。

2022-10-10 17:08:00 2487

原创 神经网络学习笔记3——Transformer、VIT与BoTNet网络

现在的Transformer被认为成为类似NLP、CNN、RNN之后的第四大类基础模型,或许这就是Attention Is All You Need的含金量吧。transformer的一大核心就是提出一个依赖于注意力机制Attention的模型。

2022-10-07 10:08:49 2110 1

原创 视觉学习笔记7——ZED2安装SDK,并用于ORB-SLAM3

经过实践发现硬件这个坑太大了,普通相机和专业相机在视觉惯性导航的差距果然不是简单解决掉的,最终还是回到拼钞能力的地步。系统版本与ROS版本:Ubuntu18.04、Melodic也算是把网上所有相关博客都看了一遍,提炼出来了精华部分做此总结,再次感谢各位前辈的肩膀~~至于可能编译过程会出现一些问题,基本上就是缺少依赖包,注意看error信息,还有可能是Cmakelist文件的问题,根据报错信息做相应修改就行。

2022-10-05 21:29:39 2588 5

原创 神经网络学习笔记2——VGGNet神经网络结构与感受野理解与代码

VGGNet突出的贡献是证明了很小的卷积,通过增加网络深度可以有效提高性能。VGG很好的继承了Alexnet的衣钵同时拥有着鲜明的特点,即网络层次较深。

2022-09-28 17:54:05 804

原创 神经网络学习笔记1——ResNet残差网络、Batch Normalization理解与代码

ResNet残差网络主要是通过残差块组成的,而引入残差块后,网络可以达到很深,网络的效果也随之变好。总而言之,ResNet网络是为了解决深度网络中的退化问题,即网络层数越深时,在数据集上表现的性能却越差的问题。

2022-09-26 15:13:02 1852

原创 视觉学习笔记6——YOLOv5(v6.2)部署与代码理解

在人工智能机器学习领域中,目前最火的莫过于计算机视觉,在计算机视觉方向中,目前最火的莫过于图像分类目标检测,在图像分类目标检测算法中,目前最火的莫过于图像分类目标检测YOLO体系。目前最新的是YOLOv7,不过因为还不稳定,所以选择更为成熟的v5进行研究,而且v7也是在v5的基础上改进来的,所以还是很有研究意义的。..................

2022-08-23 17:09:28 4260

原创 视觉学习笔记4——ORB-SLAM3的地图保存与使用

研究如何自定义自己的地图,也就是实时地图的保存与运用。

2022-07-29 08:55:41 8369 15

原创 视觉学习笔记5——FAR Planner全局路径规划算法学习研究

FAR Planner项目旨在建立一种可在现实环境中实时提取环境几何特征并动态建立Visibility Graph进行路径规划及导航的算法,同时该算法支持在没有已知地图的环境下根据实时传感器输入对路径图以及导航路径进行实时动态调整, 可在1-2ms实现对300m环境内的全局路径规划及动态调整。FAR Planner项目所提算法是Team Explorer, CMU&OSU参加DARPA地下挑战赛 (Subterran

2022-04-18 17:54:00 5226

原创 视觉学习笔记4——学习研究ORB-SLAM3

ORB-SLAM3是第一个能够让单目、立体和RGB-D相机和针孔和鱼眼镜头模型解耦进行视觉、视觉惯性和多地图SLAM的系统。

2022-03-18 15:40:10 11611 9

原创 视觉学习笔记3——复现GSDT,且代码解读

文章目录一、GSDT是什么?二、搭建GSDT1.硬件2.读入数据3、搭建GSDT环境三、报错解决:错误一:错误二:四、复现:代码解读:if __name__ == '__main__'main()有待更新。。。一、GSDT是什么?GSDT使用图神经网络进行联合目标检测和多目标跟踪论文下载原作展示MOT排名开源地址介绍对象检测和数据关联是多对象跟踪 (MOT) 系统中的关键组件。尽管这两个组件相互依赖,但先前的工作通常单独设计检测和数据关联模块,这些模块以不同的目标进行训练。因此,我们无法

2022-03-13 12:27:45 4097 5

原创 视觉学习笔记2——复现iPERCore ,对图片进行人体运动模仿(一个自己感兴趣的项目)

在学习视觉的过程中是一件很枯燥的事情,单纯的自下而上的学习方法只会让人从入门到入土,所以在学习的过程中去尝试复现一些当前流行的自己感兴趣的项目是保持良好学习心态的有效方法。

2021-09-16 17:33:47 1020 3

原创 视觉学习笔记1——配置深度学习环境(安装Ubuntu18,NVIDIA驱动,cuda10.1,cudnn,pycharm,OpenCV4,anaconda3,TensorFlow,pytorch)

给个3连吧!!!

2021-09-03 22:05:53 4464 5

原创 视觉学习笔记0——在Jetson nano安装编辑openpose

在Jetson nano安装编辑openpose~~ 如果你有台好电脑就用电脑安装吧,除非你是真的没办法。~~因为要做项目,我打算在Jetson nano(B1)上安装编译openpose(虽然我知道这并不是一个好主意),安装这个东西我走了很多弯路,兜兜转转至少安装了20多次,重装nano镜像至少5次,耗时大概4个星期,最后成功了,为了确定我的成功使具有可复制性,我又重头装多了两次,确定可行。我觉得绝大多数错误我都踩过,并将自己踩过的坑分享给大家,希望能够帮助到有同样需要的兄弟。 [https

2021-04-09 23:58:51 1651 24

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除