- 博客(41)
- 收藏
- 关注
原创 141: Package pdftex.def Error: File `figureXXX-eps-converted-to.pdf‘ not found: using draft setting.
本文针对Texstudio中出现"File figureXXX-eps-converted-to.pdf not found"错误提供了两种解决方案:1.确保图片与LaTeX文件在同一目录下;2.在设置中更改默认编译器,将Pdflatex切换为Xelatex即可解决该问题。通过截图展示了具体操作步骤,最终成功运行文件。
2025-11-20 16:53:35
241
原创 轻松掌握 YOLOv5—— 以极简代码实现复现
本文介绍了一个极简的YOLOv5复现项目,包含完整的代码实现和训练指南。项目提供了网络结构图、数据集加载、损失函数定义等核心模块,支持在COCO8小数据集上快速训练验证。用户可通过简单的命令安装依赖、运行检测脚本或训练模型,并附有详细的目录说明和效果展示。训练过程中会定期保存权重文件,建议及时清理以避免磁盘空间不足。该项目旨在帮助开发者快速理解和掌握YOLOv5的核心实现。
2025-10-24 18:18:28
367
原创 【图像超分】论文复现:轻量化超分 | SPAN的Pytorch源码复现,跑通源码进行训练、测试
摘要 本文复现了NTIRE 2024高效超分辨率挑战赛冠军模型SPAN(Swift Parameter-free Attention Network)。该模型针对传统注意力机制在图像超分任务中存在的网络复杂、参数量大、推理速度慢等问题,提出了一种无参数的注意力机制。通过对称激活函数和残差连接增强高贡献信息、抑制冗余信息,实现了参数数量、推理速度和图像质量的平衡。实验表明,SPAN在多个基准测试上超越了现有高效超分模型,在图像质量和推理速度方面均取得显著优势。复现工作包括网络结构的实现、训练测试流程的搭建,并
2025-10-24 17:07:15
1120
原创 【图像超分】论文复现:轻量化超分 | RLFN的Pytorch源码复现,跑通源码,整合到EDSR-PyTorch中进行训练、测试
本文复现了NTIRE 2022高效超分辨率挑战赛冠军模型RLFN(残差局部特征网络)。该模型通过简化特征聚合结构和三层卷积残差学习,在保持PSNR/SSIM性能的同时显著提升运行效率。研究提出了多阶段暖启动训练策略和改进的对比损失函数。模型包含特征提取、多个RLFB块和重建模块,参数量仅0.317M,推理时间27.11ms,适用于资源受限设备。复现工作提供了三个版本代码(rlfn/rlfn_ntire/rlfn_s),并整合到EDSR框架中进行训练测试。实验结果表明RLFN在运行时间和模型性能间取得了良好平
2025-10-24 16:12:05
1106
原创 【图像卷积基础】卷积过程&卷积实现通道扩充与压缩&池化Pooling原理和可视化
以单通道卷积为例,输入为(1,5,5),分别表示1个通道,宽为5,高为5。假设为3x3,padding=0,stride=1。
2025-10-23 16:48:53
1061
原创 【sci论文投稿】Response letter模板
本文分享了SCI论文投稿时使用的Response letter模板。模板分为两部分:第一页包含投稿信息、感谢编辑和审稿人,并说明已按要求修改稿件;第二页针对每位审稿人的意见逐条回复。模板采用礼貌专业的格式,包括投稿ID、论文标题、期刊名称等关键信息,并附有示例图片说明。该模板适用于作者在修改后重新投稿时使用,能有效组织对审稿意见的回应。
2025-10-22 16:17:50
409
原创 【图像超分】论文复现:轻量化超分 | FMEN的Pytorch源码复现,跑通源码,整合到EDSR-PyTorch中进行训练、重参数化、测试
论文复现摘要:轻量化图像超分辨率网络FMEN的PyTorch实现 该工作复现了CVPRW 2022论文《Fast and Memory-Efficient Network Towards Efficient Image Super-Resolution》提出的FMEN网络。主要步骤包括:1) 配置EDSR环境并下载DIV2K数据集;2) 将FMEN源码整合到EDSR-PyTorch框架中;3) 进行模型训练,通过添加参数解析模块实现自定义配置;4) 实现权重重参数化,将BN层合并到卷积层中优化推理速度。复现
2025-10-17 15:50:38
770
原创 【图像超分】python实现制作超分辨率数据集
本文介绍了使用Python实现超分辨率数据集制作的方法。主要内容包括:1) 从H.264视频中按指定间隔提取帧的完整代码,使用OpenCV和FFmpeg后端,支持帧间隔设置和错误处理;2) 多线程实现双三次插值图像降采样,可控制缩小倍数(2x/3x/4x),采用三次卷积核函数进行高质量降采样,利用线程池并行处理提高效率。代码提供了完整的参数解析、进度显示和错误处理机制,适合批量处理视频帧生成超分辨率训练数据集。
2025-10-17 15:37:23
361
原创 双三次插值(BiCubic Interpolation)超分算法详解
双三次插值是一种经典的图像超分辨率算法,通过考虑目标像素周围16个邻域像素的三次卷积加权来重建高分辨率图像。相比双线性插值,它能更好地保留边缘细节和平滑度。算法实现分为四个步骤:坐标映射、邻域像素选择、权重计算和加权求和,其中权重由三次卷积核函数基于像素距离确定。该算法适用于2-4倍放大场景,在计算资源有限时仍能提供较好的视觉效果,是传统图像处理软件中的标准缩放方法之一。
2025-09-26 16:37:15
1907
原创 双三次插值超分辨率工具脚本
该脚本集包含四个图像处理工具:1) RGB转单通道灰度图(适合红外视频处理);2) 计算两张图片的PSNR值评估图像质量;3) 中心裁剪图片到指定分辨率,可自动放大;4) 从MP4视频中按帧间隔(默认30帧)提取图片。每个工具都提供完整参数和错误处理,支持命令行操作,适用于图像超分辨率、质量评估、视频帧提取等场景。
2025-09-26 16:34:31
230
原创 python实现JPG 图片转换为 EPS 格式
摘要:本文介绍了如何使用Python将JPG图片转换为EPS格式。EPS是一种基于PostScript的矢量图形格式,具有无损缩放特性。通过Pillow库实现转换功能,脚本支持命令行参数输入输出路径自动处理。代码包含文件验证、模式转换(RGB/RGBA处理)和错误处理,可批量转换JPG图片为印刷出版所需的EPS格式。使用示例包括默认路径转换和指定输出路径两种方式。
2025-09-25 10:27:47
222
原创 Shell基础
本文摘要主要介绍了Shell脚本的基础知识和编写方法。第一章阐述了Shell作为命令解释器的作用,以及Shell脚本的概念和特性,包括Sha-Bang和注释的使用方法。第二章详细讲解了Shell脚本中的变量类型:自定义变量(定义、赋值、使用、修改和删除)、环境变量(export命令和配置文件)和特殊变量($0、$n、$#等)。此外还介绍了Shell脚本的参数传递机制,包括$0获取脚本名称和$n获取参数值的方法。文章通过示例代码演示了脚本的编写和执行过程,包括权限设置和变量操作等基本操作。
2025-09-25 10:26:55
957
原创 .h264或.264视频文件转化成mp4视频
H.264/AVC是广泛应用的高效视频编码格式,仅含视频数据需封装为MP4等容器格式才能播放。本文介绍了H.264的技术特点和应用场景,并详细说明如何通过FFmpeg和Python代码实现.264/.h264文件到MP4的转换。环境配置部分指导用户下载安装FFmpeg并验证,Python代码提供了单个文件转换和批量转换功能,支持直接流复制或重新编码选项,可通过命令行参数灵活控制输出质量和文件覆盖等设置。该方案适用于需要处理原始H.264视频流的各种场景。
2025-09-24 16:59:39
1477
原创 FFmpeg安装(Windows)
本文介绍了在Windows系统上安装FFmpeg的方法。FFmpeg是一个功能强大的多媒体处理工具,支持各种音视频格式。安装步骤包括:从官网下载压缩包、解压到指定位置、添加环境变量。最后通过终端输入"ffmpeg -version"命令验证安装是否成功。整个过程简单明了,适合初学者快速完成FFmpeg的安装配置。
2025-09-24 16:56:56
406
原创 论文投稿信(Cover Letter)
这篇博客分享了撰写论文投稿信(Cover Letter)的经验和模板。作者在学习投稿系统要求后,总结了一套标准格式:首先致谢主编,说明投稿意向;接着阐述研究创新点(解决微小器官分割难题)和方法优势(参数少、计算资源需求低);然后声明文章符合期刊范围且未在其他地方投稿。博文提供了医学图像处理和视频处理两个领域的实际案例模板,最后幽默地用表情包表达投稿心情。全文实用性强,为初次投稿者提供了清晰指导。
2025-09-18 15:19:51
978
原创 2025最新Latex安装:Texlive+Texstudio
本文介绍了2025年最新版LaTeX环境的安装方法,推荐使用Texlive+Texstudio组合替代在线平台Overleaf。Texlive作为编译核心包含各类宏包,Texstudio提供友好编辑界面。详细指导了Texlive 2025的下载、安装过程(包括路径选择、语言包定制)、环境变量配置及安装验证。同时说明了Texstudio的官网下载和基础安装步骤。该方案适合需要处理大文件或复杂排版的用户,避免在线平台的文件大小限制和付费问题,建立完整的本地LaTeX工作环境。
2025-09-18 15:15:26
1098
原创 MySQL学习笔记
本文介绍了数据库的基本分类和MySQL数据库的相关知识。主要内容包括: 数据库分为关系型(如MySQL、Oracle)和非关系型(如Redis、MongoDB)两类; MySQL是流行的关系型数据库管理系统,具有体积小、速度快、开源等特点; 介绍了MySQL的基本操作命令和SQL语法; 详细说明了数据类型(数值、字符串、时间)和字段属性; 对比了MyISAM和InnoDB两种存储引擎的特点; 讲解了数据库表的修改、删除等操作; 介绍了DML语言,包括数据的插入和修改操作。
2025-09-12 13:51:32
1018
原创 Java笔记
本文总结了Java编程基础要点,包括程序结构、数据类型、运算符、控制语句、数组枚举、类与对象、方法等核心内容。重点涵盖了:1) Java基本语法规则如标识符命名、注释方式;2) 变量与常量的定义及使用规范;3) 8种基本数据类型及其运算规则;4) 程序控制语句(带标签break/continue);5) 数组声明与枚举类型使用;6) 面向对象基础(对象创建、匿名对象);7) 方法定义、重载及参数传递机制。文中通过典型代码示例演示了各知识点的具体应用,如获取数据类型极值、三元运算符、多维数组等,为Java初学
2025-09-12 13:46:52
1024
原创 overleaf导入模板
本文介绍了如何在Overleaf平台导入Springer Nature模板。首先下载所需的模板压缩包,然后在Overleaf中选择"Upload project"上传该压缩包。上传后会显示模板文件,包括EPS格式图像文件、LaTeX源文件、BibTeX参考文献文件、PDF输出文件以及文档类文件。这些文件共同构成了完整的LaTeX模板,可用于学术论文写作和排版。
2025-09-11 17:21:55
760
原创 Docker 容器传输文件的常用方法
Docker容器与主机间传输文件的四种常用方法:1)docker cp命令适合临时文件传输;2)Docker卷(Volume)实现持久化共享;3)通过Dockerfile的COPY/ADD指令将文件集成到镜像;4)网络传输工具(如wget)适用于跨主机场景。不同方法各有优势:docker cp操作简单,Volume适合长期共享,Dockerfile绑定文件到镜像,网络工具灵活性高。根据实际需求选择合适方式,如临时传输用docker cp,持久化共享用Volume。
2025-09-11 15:30:54
1591
原创 生成yolov8 onnx模型
摘要:本文介绍了如何生成YOLOv8的ONNX模型。首先需要下载特定版本的源码和预训练模型,并搭建Python 3.10.12环境,安装指定依赖包。然后通过YOLO类加载pt模型,并使用export方法导出为ONNX格式(opset=13)。整个过程包括代码版本控制、环境配置和模型转换三个主要步骤。
2025-09-10 10:00:05
494
原创 二进制数据帧数据提取
摘要 本文介绍了两种处理二进制数据帧的方法:1) 从二进制LOG文件提取RecordData并保存到Excel表格;2) 根据Excel数据绘制44条曲线图。第一部分详细说明了如何配置环境、解析二进制文件结构(包含帧头、计数器、数据和校验和),并将提取的44个signed short数值保存为Excel表格。第二部分展示了如何读取Excel数据,使用matplotlib为44个数据列绘制不同颜色和线型的曲线图,并添加图例和网格线。两个方法都包含完整的Python代码实现和错误处理机制。
2025-09-10 09:49:14
176
原创 Hi3516CV610仿真实现yolov8_cpu推理
本文介绍了在Hi3516CV610仿真环境下实现yolov8_cpu推理的完整流程。首先配置了Ascend Toolkit环境变量,然后使用CMake进行编译配置,检测到GNU 11.4.0编译器。通过make命令完成C++代码编译和链接,生成可执行文件。运行程序时,指定yolov8_cpu模型参数,系统成功加载模型并执行推理,详细记录了各层处理过程(包括卷积、切片、拼接等操作)和性能信息。整个过程展示了从环境配置到模型推理的完整链,为基于Hi3516CV610的AI应用开发提供了参考范例。
2025-09-05 17:27:17
207
原创 纯数字识别数据集
这是一个纯数字识别数据集文件,包含图像文件压缩包images_ocr_dataset.zip。文件通过百度网盘分享,提供下载链接和提取码0207。该数据集可用于数字识别相关的研究或开发项目。
2025-09-04 15:17:16
154
原创 paddleocr安装步骤及使用案列介绍
本文介绍了PaddleOCR的安装步骤及使用案例。安装部分包括创建conda环境、安装CPU/GPU版PaddlePaddle(提供不同CUDA版本)、验证安装并完成PaddleOCR安装。测试部分展示了OCR、文档结构识别和ChatOCR的调用方法。应用案例提供了两个实用脚本:批量文本识别脚本可处理目录下所有图片并保存识别结果;图片定位脚本通过鼠标交互选取图像区域,支持缩放显示并实时绘制选取框。两个脚本均包含详细注释,便于理解核心功能实现逻辑。
2025-09-04 10:48:48
1252
原创 PPOCRLabel安装步骤及使用
本文介绍了PPOCRLabel工具的安装与使用步骤。首先创建conda环境并安装PaddlePaddle(提供CPU和GPU版本选择),然后验证安装并安装paddleocr和PPOCRLabel工具。启动后,用户可选择普通模式或KIE模式进行标注。文章还提供了调试模式的启动方法,并建议将待标注图片文件夹命名为"images"以便工具识别。该工具适用于图像文本检测、识别及关键词提取等场景的标注工作。
2025-09-04 10:30:49
731
原创 Hi3516cv610_SVP_NPU 环境安装(Docker)
本文详细介绍了在Ubuntu 22.04系统下通过Docker安装SVP_NPU环境的完整流程。首先通过远程镜像仓库拉取专用镜像,提供CPU/GPU两种容器部署方式;然后安装交叉编译工具链;接着分别介绍了官方和替代方法安装SVP_NNN_PC工具及Ascend-cann-toolkit;最后以yolo目标检测示例验证环境配置,成功完成编译测试。整个流程包含详细的命令操作和截图说明,为NPU开发环境搭建提供了完整指导。
2025-08-25 15:11:25
297
原创 python实现图像增强
图像数据增强是指通过一系列图像处理技术,对原始图像进行变换或修改,以生成与原始图像相似但又不完全相同的新图像样本。1.增加数据多样性:通过变换图像的亮度、对比度、颜色、角度等属性,生成多样化的图像样本,使模型能够学习到更加全面的特征表示。2.提高模型泛化能力:增加训练数据集的规模和多样性,有助于模型摆脱对特定样本的过度依赖,提高在未见过的数据上的表现能力。1.保持数据特性:增强后的图像应尽可能保持原始图像的重要信息和特征,避免引入过多与任务无关的变化。(3)缩放:改变图像的大小,包括放大和缩小。
2025-08-21 10:13:26
532
原创 数据标注:labelimg和Labelme的安装
图像数据标注是指通过人工或自动化的方式,对图像中的目标对象、场景、属性等进行标记和注释的过程。图像标注后,生成的 json 文件是保存的分割边界坐标,还需要进一步处理,将描述文件转 换为分割实例图像。3D 标注:对图像中的物体进行三维空间中的标注,包括物体的形状、大小、位置等。此外,还有 OCR 转写(对图像中的文字内容进行标记与转写)、属性判别(识别并标注图像中目标物体的属性)等标注方法。2.制定标注规范:根据任务需求和数据特点,制定详细的标注规范,包括标注目标、标注方法 、标注精度等。
2025-08-21 10:06:49
867
转载 YUV420数据格式详解
YUVplanar和packed。对于planar的YUV格式,先连续存储所有点的Y,紧接着存储所有像素点的U,随后是所有像素点的V。对于packed的YUV格式,每个像素点的Y,U,V是连续交叉存储的。YUV分为三个分量,Y表示明亮度(Luminance或Luma),也就是灰度值;而U和V表示的则是色度(Chrominance或Chroma),作用是描述影像色彩及饱和度,用于指定像素的颜色。
2025-08-20 16:21:25
145
原创 HLS协议
协议通过将视频文件切分成多个小的媒体段(通常是10秒左右的.ts文件),并通过HTTP传输给客户端。M3U8文件是HLS的核心部分,它是一个UTF-8编码的播放列表,描述了视频段和相关的元数据。广泛的CDN兼容性:因为HLS使用HTTP协议,它可以很容易地通过内容分发网络(CDN)进行分发,确保高效的视频传输。自适应流:HLS支持多个不同码率的视频流,客户端根据当前带宽情况自动切换最佳码率,提供更好的观看体验。内容保护:HLS支持加密流,提供了对视频内容的保护,确保视频播放时不会被未经授权的用户访问。
2025-08-20 15:32:04
793
原创 SRT协议
转载于博主 却道天凉_好个秋(Secure Reliable Transport)是一种开源的网络传输协议,专为实时音视频数据传输设计,具有低延迟、高可靠性和安全性等特点。
2025-08-20 15:26:59
686
原创 HTTP-FLV协议
FLV 是一种容器格式,主要用于存储视频和音频数据,最早由 Adobe 用于 Flash 播放器的视频流播放。FLV 文件可以包含多种编码格式的视频(如 H.264)和音频(如 MP3 或 AAC)流,便于在 Flash 播放器上流式传输。尽管 Flash Player 已经被淘汰,FLV 格式仍然在一些直播和点播服务中被使用,尤其是在 Flash 被广泛应用于早期的 Web 视频和直播平台中。HTTP-FLV 是通过 HTTP 协议传输 FLV 视频流的技术方案。
2025-08-20 15:25:35
952
转载 RTSP协议
RTSP(Real-Time Stream Protocol)协议是一个基于文本的多媒体播放控制协议,属于应用层。RTSP以客户端方式工作,对流媒体提供播放、暂停、后退、前进等操作。该标准由IETF指定,对应的协议是RFC2326。RTSP作为一个应用层协议,提供了一个可供扩展的框架,使得流媒体的受控和点播变得可能,它主要用来控制具有实时特性的数据的发送,但其本身并不用于传送流媒体数据,而必须依赖下层传输协议(如RTP/RTCP)所提供的服务来完成流媒体数据的传送。
2025-08-20 15:18:12
167
转载 RTP协议
流媒体:使用流式传输技术的连续时基媒体。使用流式传输可以边下载边播放,无需等待音频或视频数据信息全部下载完成后再播放。混频器(Mixer):一种中间系统,将一个或多个源的RTP数据包合成一个新的RTP数据包,然后转发出去。混频器可能会改变数据包的数据格式,并对各个流组合的新数据包生成一个新SSRC。转换器(Translator):一种中间系统,转发RTP数据包但不改变数据包的同步源标识符,可用于通过IP多播无法直接到达的用户区,如在防火墙两端使用转换器,外侧转换器通过安全连接将数据传输到内侧转换器。
2025-08-20 15:15:13
137
原创 YOLOv5 与 YOLOv8 的主要区别
维度YOLOv5YOLOv8特征提取C3 模块C2f 模块(增强特征复用)检测头耦合头(分类+回归共享层)解耦头(分类/回归分支分离)锚框方式Anchor-Based(依赖预定义锚框)Anchor-Free(无锚框)损失函数交叉熵+CIoU支持任务仅目标检测检测、分割、姿态估计性能(同规模)精度和速度中等精度更高、速度略快。
2025-08-08 10:19:47
1147
原创 [error]:ModuleNotFoundError: No module named ‘torchvision.transforms.functional_tensor
ModuleNotFoundError: No module named 'torchvision.transforms.functional_tensor
2025-07-09 10:00:48
480
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅