- 博客(195)
- 问答 (1)
- 收藏
- 关注
原创 CLIP模型学习记录
CLIP(对比语言-图像预训练)是OpenAI提出的多模态模型,通过4亿图文对进行对比学习训练。该模型采用双流架构,分别处理图像和文本数据,在嵌入空间进行语义对齐。核心是对比学习策略,通过比较正负样本优化特征表示。训练完成后,CLIP可转换为零样本分类器,将类别名称嵌入并与图像特征匹配实现分类。该模型在零样本学习和图像搜索等任务中表现优异,能有效识别新类别并实现图文跨模态检索。
2026-02-06 01:36:09
807
原创 RSAR环境配置
本文介绍了SAR目标检测项目的环境配置与运行步骤。首先通过conda创建Python 3.8虚拟环境,然后依次安装PyTorch 2.0.0及相关CUDA工具包、基础数据处理库(如numpy、opencv等)、目标检测专用库(ultralytics和efficientnet_pytorch)以及可视化库gradio。配置完成后,进入虚拟环境运行gradio_gui1.py启动可视化界面,需先加载模型再进行单图/多图检测,检测结果支持下载保存。整个流程简明清晰地指导用户完成从环境搭建到模型应用的完整过程。
2026-01-28 15:57:23
58
原创 Visio导出清晰合适的pdf插入到Latex模板中
本文介绍了Visio绘图导出为PDF并插入LaTeX文档的详细步骤:1)调整画布大小适应绘图;2)在开发工具中设置页面显示;3)将页边距设为0mm;4)导出PDF时选择当前页并取消辅助功能标记。同时提供了LaTeX单栏和双栏插入图片的代码模板,包含图片路径、标题和标签设置。整个流程简洁明了,便于科研论文中高质量矢量图的排版处理。
2026-01-24 22:24:36
136
原创 根据txt标签文件在图像上生成真实标签框
这段Python代码实现了从指定文件夹读取图像和对应的标签文件,并在图像上绘制标注框的功能。代码首先设置输入输出路径,然后遍历图像文件夹,为每张图像读取对应的标签文件(.txt格式),解析其中的坐标信息(中心点坐标和宽高),转换为边界框坐标后使用OpenCV在图像上绘制绿色矩形框。最后将标注后的图像保存到输出目录。代码包含错误处理机制,能够跳过无法读取的图像或缺失的标签文件,并支持常见图像格式(jpg/jpeg/png)。
2025-12-30 18:57:42
211
原创 RSAR的前端可视化界面
本文实现了一个基于RSAR论文的旋转目标检测系统前端界面。系统采用PyTorch框架,通过Gradio构建交互界面,能够处理旋转边界框的检测任务。主要功能包括:1) 初始化RSAR模型;2) 将旋转框(x,y,w,h,θ)解码为四个角点坐标;3) 从检测结果中提取置信度高于阈值的检测框;4) 使用OpenCV绘制旋转边界框并标注类别和置信度。系统支持6类目标检测(船舶、坦克、桥梁等),每类使用不同颜色标注,并提供了完整的预处理和后处理流程。该实现为旋转目标检测研究提供了可视化工具参考。
2025-12-21 19:48:41
294
原创 数据集划分示例代码(图片、txt标注文档)
本文介绍了一个用于划分图片和TXT标注格式数据集的Python脚本。该脚本可按指定比例(默认8:1:1)将数据集随机划分为训练集、验证集和测试集,并自动创建对应的目录结构。功能包括:随机打乱数据、按比例划分、复制图片和标签文件、验证文件数量一致性、保存划分信息等。脚本支持自定义输入输出路径、图片扩展名和划分比例,适合计算机视觉任务的数据预处理工作。
2025-10-27 16:23:33
376
原创 Overleaf使用记录
本文总结了Overleaf的使用要点:1)标题语法(\chapter、\section等);2)公式编辑与引用方法;3)图片插入及格式说明;4)表格制作技巧;5)文献引用方式(.bib文件管理及\cite命令)。重点介绍了各类常用命令和在线工具,并提供了代码示例,特别标注了表格编译时可能遇到的问题。全文采用Markdown格式呈现,结构清晰,便于LaTeX初学者快速掌握核心功能。
2025-10-13 16:05:59
479
原创 Pycharm安装和配置conda环境
本文介绍了PyCharm和Anaconda的安装配置方法。PyCharm建议选择1-2年前的稳定版本安装,并展示了安装界面的关键步骤。Anaconda推荐从国内镜像网站下载,安装时需注意选择"Just Me"、不勾选自动添加变量,并手动配置环境变量路径。最后说明了如何在PyCharm中连接conda的Python解释器,附有配置界面截图。全文提供了从软件下载到环境配置的完整指南。
2025-08-01 17:28:46
741
原创 解决Visio箭头总是自动吸附到连接点,不能随意摆放问题
在我们用Visio画图时,其自带的自动对齐、自动连接、自动吸附功能确实能带了很多便利。但在画连接线时,Visio总是自动连接箭头与图形的固定节点,想要微调一下连接位置,却很麻烦,显得很不方便,需要关闭自动连接功能。选择菜单栏中的视图,点击视觉帮助的右下角小箭头,在打开的设置对话框中,取消对齐和粘附前的勾即可。
2025-04-09 15:23:51
8155
2
原创 Word中把参考文献引用改为上标
1. 在Word中,当我们交叉引用来引用文献时,文献的引用默认和字体是一样大的。然后依次点击:格式、字体、上标。然后点击上标前的框后点击确定,再点击全部替换。然后依次点击:格式、字体、上标。然后点击上标前的框后点击确定,再点击全部替换。然后依次点击:格式、字体、上标。然后点击上标前的框后点击确定,再点击全部替换。
2025-03-13 21:12:38
4841
原创 三线表制作
3. 名称自己设置(如:三线表)。将格式应用于整个表格。在左下角的格式中设置 “4. 然后我们再选择将格式应用于标题行。在左下角的格式中设置 “5. 后面左下角格式里面的字体和段落,根据自己的要求自己调,1. 创建表格,比如一个五行四列的表格。2. 选中创建好的表格,点击 “榜,再点击上底纹和下底纹。
2025-01-10 16:49:21
777
2
原创 【YOLO学习】YOLOv10配置
3. 一般先安装 torch 和 torchvision,把 txt 文档中的前两行用。,在上面的帮助文档中复制相关代码粘贴上去。5. 激活虚拟环境,运行如下代码。不过这种速度会很慢,一般用国内镜像源。之后再运行上面的两条。
2024-11-07 00:36:40
1570
原创 【YOLO学习】YOLOv5详解
2. SPPF 结构是将输入串行通过多个 5x5 大小的 MaxPool 层,这里需要注意的是串行两个 5x5 大小的 MaxPool 层是和一个 9x9 大小的 MaxPool 层计算结果是一样的,串行三个 5x5 大小的 MaxPool 层是和一个 13x13 大小的 MaxPool 层计算结果是一样的。1. Focus 结构类似于 YOLOv2中的 passthrough,是一种用于特征提取的卷积神经网络层,用于将输入特征图中的信息进行压缩和组合,从而提取出更高层次的特征表示。
2024-10-18 20:08:19
15110
原创 用YOLOv5跑口罩佩戴识别时的一些问题解决
2. 原因:在 numpy 的较新版本中,np.int 已经被废弃,因为它仅仅是对 Python 内置的 int 类型的一个别名。2. 原因:在过去对当前数据集进行过训练,导致在数据集文件夹中生成了 .cache 的缓存文件。3. 解决:将代码中的 np.int 替换为 Python 的内置 int 类型。3. 解决办法:找到数据集文件夹中的全部 .cache 文件,并将他们全部删除。2. 原因:版本不兼容。
2024-10-11 20:20:12
676
原创 【YOLO学习】YOLOv4详解
3. DIOU(Distance IOU)损失:DIOU 考虑到 GIOU 的缺点,也是增加了 C 检测框,将真实框和预测框都包含了进来,但是 DIOU 计算的不是框之间的交并,而是计算的每个检测框之间的欧氏距离,这样就可以解决 GIOU 包含出现的问题。concat:将两个特征图在通道数方向叠加在一起,原特征图信息完全保留下来,再对原特征图增加一些我们认为是较好的特征图,丰富了特征图的多样性,是在空间上对原特征图的增强,这样在下一次卷积的过程中我们能得到更好的特征图。
2024-10-09 20:41:04
3143
原创 Anaconda关于更换国内源、创建python环境常用指令
但这样删除环境不是很彻底,还会有文件无法删除,导致这个文件夹还在,所以我们到安装 Anaconda 的文件夹下找到 envs 文件夹,然后删除 myenv 这个文件夹。删除某个环境时,一定不能在该环境下删除,一般都是在 base 环境(anaconda默认的环境)下删除我们创建过的环境。在菜单栏中打开 Anaconda Prompt,它是一个命令行界面。
2024-10-06 23:57:07
2503
原创 【YOLO学习】YOLOv3详解
1. 与 YOLOv2 不同的是,YOLOv3 在 Darknet-19 里加入了 ResNet 残差连接,改进之后的模型叫 Darknet-53。在 ImageNet上 实验发现 Darknet-53 相对于 ResNet-152 和 ResNet101,不仅在分类精度上差不多,计算速度还比 ResNet-152 和 ResNet-101 快多了,网络层数也比它们少。2. YOLOv3 在三个不同的尺度上对框进行预测。使用类似于特征金字塔网络的概念从这些尺度上提取特征。
2024-10-06 20:45:31
1228
原创 【YOLO学习】YOLOv5口罩检测实战
4. 打开具体的标注文件,你将会看到下面的内容,txt 文件中每一行表示一个目标,以空格进行区分,分别表示目标的类别 id,归一化处理之后的中心点 x 坐标、y 坐标、目标框的 w 和 h。的第 60 行,修改成你的模型地址即可,如果你有 GPU 的话,可以将 device 设置为 0,表示使用第 0 行 GPU,这样可以加快模型的识别速度。文件中,是通过 pyqt5 完成的界面设计,在启动界面前,你需要将模型替换成你训练好的模型,替换的位置在。标记完成的数据请按照下面的格式进行放置,方便程序进行索引。
2024-10-05 13:17:33
1607
2
原创 【YOLO学习】YOLOv2详解
YOLOv1 虽然检测速度快,但在定位方面不够准确,并且召回率较低。为了提升定位准确度,改善召回率,YOLOv2 在 YOLOv1 的基础上提出了几种改进策略,如下图所示,一些改进方法能有效提高模型的 mAP。
2024-10-03 02:46:21
3326
原创 【YOLO学习】YOLOv1详解
1. YOLO 的全称是 You Only Look Once: Unified, Real-Time Object Detection。YOLOv1 的核心思想就是利用整张图作为网络的输入,直接在输出层回归 bounding box 的位置和 bounding box 所属的类别。简单来说,只看一次就知道图中物体的类别和位置。2. 将一幅图像分成 SxS 个网格(grid cell),如果某个 object 的中心落在这个网格中,则这个网格就负责预测这个 object。
2024-09-25 00:32:42
4085
2
原创 人工智能前沿技术
2. 设计轻量级神经网络模型主要有4个方向:(1) 人工设计:使用高效的卷积方式,如深度可分离卷积、组卷积。(2) 模型压缩:常用的有剪枝、量化、知识蒸馏。(3) 神经架构搜索:使用搜索策略来探索空间,以找到在特定任务上表现最优的网络架构。(4) 基于大型语言模型(LLM)的方法:如可以将注意力机制、Transformer结构等应用于轻量级视觉模型的设计中。(1) 深度神经网络;(2) 深度强化学习;(3) 大型语言模型(LLM);(4) 自监督学习;(6) 人工智能生成内容(AIGC)
2024-09-12 10:53:46
347
原创 数据结构(5)
2. 折半查找的基本思想:(1) 首先将给定Key与表中的中间位置的元素比较,若相等,则查找成功,返回该元素的存储位置。(2) 若不等,则所需查找的元素只能在中间元素以外的前半部分或后半部分,然后在缩小的范围内继续进行同样的查找。块内的元素可以无序,但块间的元素是有序的,即第一块中的最大关键字小于第二个块中的所有记录的关键字,第二块中的最大关键字小于第三个块中的所有记录的关键字,依次类推。但每次查找的取整方式必须相同。2. 顺序查找通常分为对一般的无序线性表的顺序查找和对按关键字有序的线性表的顺序查找。
2024-09-03 00:02:11
608
原创 深度学习(11)---Swin Transformer详解
(2) Swin-Transformer使用窗口多头自注意力,将特征图划成多个不相交的区域,然后在每个窗口里进行自注意力计算,只要窗口大小固定,自注意力的计算复杂度也是固定的,那么总的计算复杂度就是图像尺寸的线性倍数,而不是Vit对整个特征图进行全局自注意力计算,这样就减少了计算量,但是也隔绝了不同窗口之间的信息交流,随之作者提出后文的移动窗口自注意力计算(Shifted Windows Multi-Head Self-Attention(SW-MSA))。W-MSA是基于窗口的注意力计算。
2024-09-01 00:01:32
1395
原创 深度学习(10)---Vision Transformer详解
1. Vision Transformer(ViT)是一种基于Transformer架构的深度学习模型,它将Transformer模型从自然语言处理(NLP)领域成功扩展到计算机视觉(CV)领域。2. Vision Transformer由Google Brain团队在2020年提出,该模型挑战了卷积神经网络(CNN)在视觉任务中的主导地位,证明了Transformer架构不仅在处理序列数据(如文本)方面非常有效,在处理图像数据时也能取得卓越性能。
2024-08-19 17:21:23
4241
1
原创 深度学习(9)---ResNet详解
5. ResNet后面跟的数字,如ResNet18、ResNet50、ResNet101等,代表的是该网络结构中特定层的总数,具体来说,这个数字通常指的是卷积层与全连接层的和,而不包括池化层、批量归一化(BN)层等其他类型的层。这些数字反映了网络的深度,即网络的复杂度。3. 解决上述问题(模型走偏)的方法:每一次增加函数复杂度之后的函数所覆盖的区域会包含原来函数所在的区域(嵌套函数(nested function)),只有当较复杂的函数包含复杂度较小的函数时,才能确保提高它的性能,如下图所示。
2024-08-17 20:13:54
1855
原创 数据结构(4)
1. 树:树是n个结点的有限集。当n0时,称为空树。在任意一棵非空树中应该满足:(1) 有且仅有一个特定的称为根的节点。(2) 当n1时,其余结点可分为m个互不相交的有限集T1Tm,其中每个集合本身又是一棵树,并且称为根的子树。2. 显然树的定义是递归的,树是一种递归的数据结构。树具有以下两个特点:(1) 树的根结点没有前驱,除根结点外的所有结点有且只有一个前驱。(2) 树的所有结点都可以有零个或多个后继。
2024-08-07 00:20:26
713
原创 数据结构(3)
只允许在表的一端进行插入,而在表的另一端进行删除。5. 队列的链式表示称为链队列,它实际上是一个同时有队头指针和队尾指针的单链表。4. 采用链式存储的栈称为链栈,链栈的优点是便于多个栈共享存储空间和提高其效率,且不存在栈满上溢的情况。4. 循环队列:将顺序队列臆造为一个环状的空间,即把存储队列元素的表从逻辑上视为一个环,称为循环队列。3. 队列的顺序实现是指分配一块连续的存储单元存放队列中的元素,并附设两个指针:队头指针。(2) 栈底:固定的,不允许进行插入和删除的那一端。(2) 队尾:允许插入的一端。
2024-07-26 15:55:05
503
原创 数据结构(2)
为建立数据元素之间的线性关系,对每个链表结点,除存放元素自身的信息之外,还需要存放一个指向其后继的指针。为指针域,存放其后继结点的地址。由于单链表的元素离散地分布在存储空间中,因此是非随机存取的存储结构。1. 线性表的链式存储又称单链表。它是指通过一组任意的存储单元来存储线性表中的数据元素。的存储单元依次存储线性表中的数据元素,从而使得逻辑上相邻的两个元素在物理地址上也相邻。3. 顺序表的特点是表中元素的逻辑顺序与其存储的物理顺序相同。2. 线性表的顺序存储又称顺序表。,分别指向其直接前躯和直接后继。
2024-07-23 15:29:18
1274
原创 数据结构(1)
1. 数据:数据是信息的载体,是描述客观事物属性的数、字符及所有能输入到计算机中并被计算机程序识别和处理的符号的集合。如下面这幅图中的例子,为了方便讨论,这里我们把每一条语句的执行时间都看做是一样的,记为一个时间单元。1. 顺序存储结构:用一组连续的存储单元依次存储数据元素,数据元素之间的逻辑关系由元素的存储位置表示。2. 链接存储结构:用一组任意的存储单元存储数据元素,数据元素之间的逻辑关系用指针来表示。算法必须是有穷的,而程序可以是无穷的。数据对象:是具有相同性质的数据元素的集合,是数据的一个子集。
2024-07-19 15:51:41
653
原创 Hbase表结构
(2)每个CF可以有一个或多个列成员(ColumnQualifier),列成员不需要在定义表 时给出,新的列族成员可以随后按需要动态加入。6. 区域(Region):(1)HBase自动把表水平(按 Row)划分成多个区域(Region),每个Region会保存一个表里面某段连续的数据。(2)每个表一开始只有一个Region,随着数据不断插入表,Region不断增大,当增大到一个阈值的时候,Region就会等分为两个新的Region。行键(RowKey):(1)行键是字节数组,任何字符串都可以作为行键。
2024-06-30 00:36:38
774
原创 在Anaconda中安装keras-contrib库
如Anaconda中的base环境,打开\Anaconda\Lib\site-packages,创建keras-contrib文件夹并解压压缩包。1. 打开Anaconda Prompt命令行,激活自己的环境,并切换到keras-contrib中的keras-contrib-master路径下。打开网址 https://github.com/keras-team/keras-contrib 直接下载文件压缩包。:如果不能换盘cd,可以激活环境后先输入。:这里根据自己的环境选择。
2024-06-09 16:24:25
995
2
原创 云计算导论(3)---分布式文件系统
1. 文件系统是操作系统用来组织磁盘文件的方法和数据结构。传统的文件系统指各种UNIX平台的文件系统,包括UFS等,它们管理本地的磁盘存储资源,提供文件到存储位置的映射,并抽象出一套文件访问接口供用户使用。通常包含的四类信息:超级块、Inode、文件内容、目录内容。2. 分布式文件系统定义:分布式文件系统是一个可以存储、管理和检索文件、目录和对象的系统,它通过网络连接不同的机器,提供文件共享的接口,可以实现对文件的远程访问和同步。特点:分布式文件系统具有可靠性、容错性和可扩展性等特点。
2024-06-04 20:47:39
1341
原创 云计算导论(2)---云计算基础
3. 基础设施:云基础设施,即IaaS(Infrastructure as a Service),是经过虚拟化后的硬件资源和相关管理功能的集合,对内通过虚拟化技术对物理资源进行抽象,对外提供动态、灵活的资源服务。5. 平台:云平台,即PaaS(Platform as a Service),直接提供计算平台和解决方案作为服务,以方便应用程序部署,从而节省购买和管理底层硬件和软件的成本。(1) 选择合适的数据结构和算法:针对特定问题,选择时间和空间复杂度较低的数据结构和算法,减少不必要的计算和存储开销。
2024-05-10 17:04:00
1725
原创 云计算导论(1)---云计算概述
1. 云是网络、互联网的一种比喻说法。云计算是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。2. 云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问, 进入可配置的计算资源共享池。3. 云计算具有虚拟化、自动化、高可靠性、高弹性扩展、安全性高等特点。
2024-05-07 19:39:19
852
1
原创 神经网络与深度学习期末复习(6)---损失函数与优化算法
2. 作用:损失函数可以衡量模型预测的好坏,有助于优化网络的参数。1. 梯度的概念:梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。2. 自适应学习率算法思想:如果损失对于某个给定模型参数的偏导保持相同的符号,那么学习率应该增加。用于计算损失的函数称为损失函数,模型每一次预测的好坏用损失函数来度量。,那么我们就有理由相信,这些对应的特征在患病分析上面提供的信息是巨大的,决策性的。
2024-04-22 19:54:55
1104
原创 手写BP神经网络(简答易懂)
1. 经典的BP神经网络通常由三层组成:输入层、隐含层与输出层。通常输入层神经元的个数与特征数相关,输出层的个数与类别数相同, 隐含层的层数与神经元数均可以自定义。
2024-04-20 23:22:57
628
原创 神经网络与深度学习期末复习(5)---深度学习中的相关问题
1. 拟合就是把平面上一系列的点,用一条光滑的曲线连接起来。拟合的曲线可以用函数表示,根据这个函数的不同有不同的拟合名字。拟合的方法包括回归、插值、和逼近。2. 拟合是一种数据处理的方式,不特指哪种方法,简单的说就是你有一组数据,觉得这组数据和一个已知的函数(这个函数的参数未定)很相似,为了得到最能表示这组数据特征的这个函数,通过拟合这种方式(具体的数学方法很多)求得参数。1. 反向传播过程中,会利用链式法则求梯度,比如一个常见的式子如下:2. 如果每一项∣ζ∣1|ζ|
2024-04-20 17:17:05
1449
原创 神经网络与深度学习期末复习(4)---自编码器
在整个训练过程中,自编码器的目标是最小化输入数据和重建数据之间的差异,以学习到更加有效的特征表示。因为稀疏的表达往往比其他的表达要有效(人脑好像也是这样的,某个输入只是刺激某些神经元,其他的大部分的神经元是受到抑制的)。编码过程是按照从前向后的顺序执行每一层自编码器的编码,解码过程按照从后向前的顺序执行每一层自编码器的解码。1. 栈式自编码器是一个由多层稀疏自编码器组成的神经网络,其前一层自编码器的输出作为其后一层自编码器的输入。(4) 将最后一个隐含层的输出作为有监督层的输入,并且初始化有监督层的参数。
2024-04-19 21:11:53
1052
yolov10预训练模型.rar
2024-11-05
YOLOv5口罩检测 标注好的数据集+训练好的模型.zip
2024-10-11
MySQL版数据库原理与应用PPT
2023-11-03
计算机算法设计与分析第五版王晓东PPT课件
2023-10-25
答案正确率百分之五十,不知道哪里有问题
2021-11-30
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅