自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 力扣刷题笔记

输入:head = [1,2,3,4,5] 输出:[5,4,3,2,1]输入:head = [1,2] 输出:[2,1]输入:head = [ ] 输出:[ ]

2024-03-04 01:19:29 1066

原创 AIGC学习笔记——DALL-E2详解+测试

DALLE2提出了一个两阶段模型,利用类似CLIP的对比模型学习到的图像表示。第一阶段是一个先验模型,根据文本描述生成CLIP图像嵌入;第二阶段是一个解码器,根据图像嵌入生成相应的图像。我们发现,通过明确生成图像表示,可以提高图像多样性,同时最小程度地损失真实感和描述相似性。我们的解码器在图像表示的条件下,能够产生保留其语义和风格的图像变体,同时变化了图像表示中缺少的非关键细节。此外,CLIP的联合嵌入空间使得可以通过语言引导图像操作,实现零-shot学习。

2024-02-24 01:31:09 1457

原创 AIGC学习笔记——CLIP详解加推理

小辉问:能不能解释一下zero-shot?小G答:零次学习(Zero-Shot Learning,简称ZSL)假设斑马是未见过的类别,但根据描述外形和马相似、有类似老虎的条纹、具有熊猫相似的颜色,通过这些描述推理出斑马的具体形态,从而能对斑马进行辨认。零次学习就是希望能够模仿人类的这个推理过程,使得计算机具有识别新事物的能力。标准图像模型联合训练一个图像特征提取器和一个线性分类器来预测某些标签,而 CLIP 联合训练图像编码器和文本编码器来预测一个 batch 的 (图像, 文本) 训练示例的正确配对。

2024-02-22 16:57:52 1262

原创 春招面试准备笔记——过拟合和欠拟合

过拟合是指模型在训练过程中过于复杂,拥有过多的参数,以至于在训练数据集上表现良好,但在未见过的测试数据上表现很差的现象。这种情况下,模型可能只是“死记硬背”了训练数据的特征和噪声,而没有真正学习到数据的普遍规律。例如,考虑一个简单的多项式拟合问题,如果使用了高阶多项式拟合数据,模型可能会过于灵活,完美地拟合了训练数据,但对于新的、未见过的数据,其预测性能却很差。欠拟合是指模型在训练过程中过于简单,参数过少,以至于无法很好地拟合训练数据的真实分布。

2024-02-20 16:27:41 1044

原创 春招面试准备笔记——NMS(非极大值抑制)算法

NMS(非极大值抑制)算法非极大值抑制是用于减少物体检测算法中重叠边界框或区域的数量的技术。通过对每个类别的检测框按置信度排序,然后逐个遍历,保留置信度最高的框,并抑制与其重叠且置信度低的框,从而得到更准确和简洁的检测结果。

2024-02-20 15:58:21 643

原创 slam系统的流程图

2024-02-19 18:20:26 425

原创 ABINet原理讲解以及运行

OCR技术经历了是从传统方法到深度学习方法的一个过程,所以在这里我也简述一下传统的OCR技术方法。传统OCR方法在简单场景下效果良好,但在复杂场景、不同字体、光照条件变化等情况下可能面临挑战。近年来,随着深度学习的发展,基于神经网络的端到端OCR系统逐渐崭露头角,取得了在多种场景下更优越的性能。这是一个端到端深度学习场景文本识别网络,利用语言模型帮助场景文本识别,提出了一种基于双向特征表示的双向完形填空网络语言模型(BCN),重点解决低质量图像的文本识别问题。

2024-02-19 18:13:19 1572

原创 DBNet详解及训练ICDAR2015数据集

在这篇论文之前,文字检测算法主要分为两类:基于回归的方法和基于分割的方法。基于分割的方法通常涉及以下流程,如下图蓝色箭头所示:首先,通过网络输出图像的文本分割结果,即概率图,其中每个像素表示是否属于正样本的概率。然后,通过使用预设的阈值将分割结果图转换为二值图。最后,通过一些聚合操作,例如连通域分析,将像素级的结果转换为最终的文本检测结果。然而,由于涉及使用阈值来判定前景和背景的不可微分操作,因此这一部分流程无法被直接放入网络中进行训练。所以本文引入了一种新的方法。

2024-02-05 14:11:45 1837 1

原创 PSENet详解+代码解释+测试

5、这个过程由于我用的都是新版的环境,以及自定义的数据集,等等所以改的地方比较多,有问题可以评论区问(自己的笔记本只有一块显卡,超级慢,但是代码支持多块显卡,我用的公司服务器4块显卡同时训练,效果还行)上面两个是多边形Pn和Pi之间的间距计算和缩放比例计算公式,其中Area()表示多边形的面积,Perimeter()表示多边形的周长,参数m和n是算法的超参数,分别取值为0.5和6。二、BFS的关键点是确保节点按照它们的距离从起始节点排列,即先访问距离起始节点为1的节点,然后是距离为2的节点,以此类推。

2024-02-02 18:27:47 1524

原创 Seq2Seq原理讲解以及实战练手

在训练时,解码器的输入是已知的目标序列(ground truth),而在推理阶段(生成阶段),解码器的输入是其自己先前生成的元素。这一层的输出将作为后续的输入提供给 GRU。它接受当前时刻的输入和先前时刻的隐藏状态,并生成当前时刻的输出和新的隐藏状态。线性输出层(out):将 GRU 层的输出映射到最终的输出空间,这里是对应词汇表的大小(5992),用于预测下一个标签的概率分布。注意力结合层(attn_combine):将注意力权重应用于编码器的输出,以加权求和的方式结合编码器的输出和当前解码器的输入。

2024-02-01 16:56:02 1752

原创 manifold-distillation蒸馏cait_s24_224运行(demo)

-teacher-path /data2/xuzhen8/yzh/projects/manifold-distillation/teacher_model/cait_s24_224.pth: 指定教师模型的路径。--output_dir /data2/xuzhen8/yzh/projects/manifold-distillation/output: 指定输出目录,训练过程中的日志、模型检查点等结果将保存在这个目录中。--distillation-type soft: 指定知识蒸馏的类型,这里是软蒸馏。

2024-01-30 18:22:34 404

原创 文本检测学习笔记_CTPN

整体上,CTPN通过整合卷积和双向LSTM网络,有效地检测图像中的文本提议,并通过后续的处理步骤完善最终的文本区域。这种结合空间和序列信息的方法使得CTPN能够更好地理解文本序列的依赖关系,例如,通过BLSTM的双向学习,模型可以更全面地感知图像中文本的上下文信息,从而更准确地生成等宽的文本提议,有效地检测自然场景图像中的文字区域。通过与实际目标框的交并比,模型可以学习调整这些Anchor的位置和形状,提供多样性的候选框,从而更有效地捕捉不同尺寸和形状的目标。RPN 是用于生成文本区域提议框的部分。

2024-01-30 18:18:12 1079

原创 GroundingDINO运行教程

解决警告:到报警告的代码上,更改代码为 return _VF.meshgrid(tensors, **kwargs, indexing="ij")解决办法:由于服务器不能科学上网,所以不能在线下载bert预训练模型,在项目根目录运行 git clone。还有两个警告没有解决,但是不影响程序运行,还有下面的问题 ,我没遇到过 ,但是也注意一下。,更改groundingdino/util/get_tokenlizer.py代码。后续会出这篇论文的详解和训练代码和教程.......请关注一下。

2024-01-26 17:38:17 1282

原创 知识蒸馏学习笔记-manifold-distillation

现在,我们希望通过训练一个较小的学生网络,使得学生网络也能输出类似的概率分布。这种蒸馏的过程有助于提高学生网络的性能,尤其是在资源受限的情况下,通过借助大模型的知识来训练小模型,实现性能的平衡。总体而言,patch之间的关系被认为是包含了图像语义信息的一种表达方式,因此通过学习这种关系,可以有效地捕捉到图像中的特征和结构,提高了蒸馏方法的性能.与其他适用于视觉transformer的蒸馏方法相比,该方法更充分利用了教师网络所携带的信息,不要求教师网络和学生网络的特征维度对齐,因此具有较高的灵活性。

2024-01-25 20:43:29 1051

原创 MaskFormer-Mask2Former-MpFormer详解

总的来说,原来实例语义分割一般来说使用在per-pixel分类.然而实例分割一般使用mask classification.但是在本文中本文作者的观点是:mask classification完全可以通用,即可以使用完全相同的模型、损失和训练程序以统一的方式解决语义和实例级别的分割任务。

2024-01-25 03:13:42 1865 1

原创 数据结构基础知识——树和树的基本操作

若一个结点有子树,那么该结点称为子树根的"双亲",子树的根是该结点的"孩子"。在图一中,B、H是A的孩子,A是B、H的双亲。2、斜树: 所有节点都只有左子树的二叉树叫做左斜树,所有节点都只有右子树的二叉树叫做右斜树。区别于线性表一对一的元素关系,树中的节点是一对多的关系。一个节点拥有子树的数目。根节点为第一层,其余节点的层次等于其双亲节点的层次加1.树中节点各子树之间的次序是重要的,不可以随意交换位置。1、n>0时,根节点是唯一的,不可能存在多个根节点。除了叶子节点之外的节点,也即是度不为0的节点。

2024-01-24 17:33:08 335

原创 算法——BF算法、KMP算法和BM算法

这三种算法都是最基本的字符串匹配算法。

2024-01-24 17:29:57 368

原创 学习ros,掌握了ros编译的整体流程逻辑,所以写了一个简单的demo订阅

在ROS中,当你通过catkin_make编译你的工作空间时,所有的可执行文件(比如节点、工具等)会被放在devel/lib/目录下,其中是你的软件包的名称,这取决于CMakeLists.txt中设置的项目名称。在运行rosrun my_robot_pkg publisher_node命令时,publisher_node是一个可执行文件的名称,ROS会在你的工作空间中找到这个可执行文件并运行它。//添加了roscpp和std_msgs作为依赖项,因为我们将使用C++编写节点,并在订阅消息时使用标准消息包。

2024-01-24 17:05:26 396

原创 实习笔记记录

编译vins-fusion开源项目可能会遇到如下项目,因为我使用的是opencv4,但是项目中使用的是opencv3的函数,会有很多报错,由于个人不想改opencv版本,所以选择改源码(但是这个过程非常的)后期计划:通过阅读代码掌握该源码原理,尝试将该vio中的位姿估计优化图框架该文上述论文中的SE-Sync.对于比性能优秀的前端,在数据集相对简单、噪音很低的情况下,后端优化的选择就凭借个人喜好了。1、学习单目SLAM理论基础,手推其中的数学公式,掌握相机的内参矩阵。

2024-01-24 17:01:17 339

原创 语义分割学习

同时,进行特征融合的操作,将来自不同层次的特征图进行合并,以获得更全面的特征表示。与CNN不同的之处在于CNN是图像级的分类,而unet是像素级的分类,其输出的是每个像素点的类别。PSP模块的主要特点在于使用了不同步长和池化尺寸的平均池化层进行池化,然后将这些不同尺度的池化结果合并,形成一个具有全局上下文信息的特征。PSPNet之所以得名为PSPNet,是因为它的核心组件采用了PSP模块,而这个模块的设计使得网络能够更有效地捕捉不同尺度的上下文信息,从而提高了场景解析的性能。

2024-01-24 16:57:56 1009

原创 大数据——JSoup爬虫技术

大数据笔记

2022-11-04 11:40:34 721 1

原创 开发知识点——MyBatis获取参数值的两种方式

后端开发知识点

2022-11-03 17:46:16 170

原创 2.4、向量化

深度学习笔记——2.4、向量化

2022-11-01 17:04:04 1892

原创 2.3、梯度下降法

深度学习笔记——2.3、梯度下降法

2022-10-31 17:58:37 403

原创 2.2、logistic回归

深度学习笔记——2.2、logistic回归

2022-10-31 17:16:21 2205 1

原创 2.1、二分分类

深度学习笔记——2.1、二分分类

2022-10-29 18:35:14 502

原创 1.2、用神经网络进行监督学习

深度学习笔记——1.2、用神经网络进行监督学习

2022-10-29 18:17:54 657

原创 1.1、什么是神经网络

深度学习笔记——1.1、什么是神经网络

2022-10-29 18:01:12 129

结合我之前几次针对yolo的面试,总结了一下,写了个笔记

结合我之前几次针对yolo的面试,总结了一下,写了个笔记

2024-01-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除