浆果0207-CSDN博客

原创 141: Package pdftex.def Error: File `figureXXX-eps-converted-to.pdf‘ not found: using draft setting.

本文针对Texstudio中出现"File figureXXX-eps-converted-to.pdf not found"错误提供了两种解决方案：1.确保图片与LaTeX文件在同一目录下；2.在设置中更改默认编译器，将Pdflatex切换为Xelatex即可解决该问题。通过截图展示了具体操作步骤，最终成功运行文件。

2025-11-20 16:53:35 261

原创轻松掌握 YOLOv5—— 以极简代码实现复现

本文介绍了一个极简的YOLOv5复现项目，包含完整的代码实现和训练指南。项目提供了网络结构图、数据集加载、损失函数定义等核心模块，支持在COCO8小数据集上快速训练验证。用户可通过简单的命令安装依赖、运行检测脚本或训练模型，并附有详细的目录说明和效果展示。训练过程中会定期保存权重文件，建议及时清理以避免磁盘空间不足。该项目旨在帮助开发者快速理解和掌握YOLOv5的核心实现。

2025-10-24 18:18:28 377

原创【图像超分】论文复现：轻量化超分 | SPAN的Pytorch源码复现，跑通源码进行训练、测试

摘要本文复现了NTIRE 2024高效超分辨率挑战赛冠军模型SPAN(Swift Parameter-free Attention Network)。该模型针对传统注意力机制在图像超分任务中存在的网络复杂、参数量大、推理速度慢等问题，提出了一种无参数的注意力机制。通过对称激活函数和残差连接增强高贡献信息、抑制冗余信息，实现了参数数量、推理速度和图像质量的平衡。实验表明，SPAN在多个基准测试上超越了现有高效超分模型，在图像质量和推理速度方面均取得显著优势。复现工作包括网络结构的实现、训练测试流程的搭建，并

2025-10-24 17:07:15 1155

原创【图像超分】论文复现：轻量化超分 | RLFN的Pytorch源码复现，跑通源码，整合到EDSR-PyTorch中进行训练、测试

本文复现了NTIRE 2022高效超分辨率挑战赛冠军模型RLFN(残差局部特征网络)。该模型通过简化特征聚合结构和三层卷积残差学习，在保持PSNR/SSIM性能的同时显著提升运行效率。研究提出了多阶段暖启动训练策略和改进的对比损失函数。模型包含特征提取、多个RLFB块和重建模块，参数量仅0.317M，推理时间27.11ms，适用于资源受限设备。复现工作提供了三个版本代码(rlfn/rlfn_ntire/rlfn_s)，并整合到EDSR框架中进行训练测试。实验结果表明RLFN在运行时间和模型性能间取得了良好平

2025-10-24 16:12:05 1135

原创【图像卷积基础】卷积过程&卷积实现通道扩充与压缩&池化Pooling原理和可视化

以单通道卷积为例，输入为（1,5,5），分别表示1个通道，宽为5，高为5。假设为3x3，padding=0，stride=1。

2025-10-23 16:48:53 1104

原创【sci论文投稿】Response letter模板

本文分享了SCI论文投稿时使用的Response letter模板。模板分为两部分：第一页包含投稿信息、感谢编辑和审稿人，并说明已按要求修改稿件；第二页针对每位审稿人的意见逐条回复。模板采用礼貌专业的格式，包括投稿ID、论文标题、期刊名称等关键信息，并附有示例图片说明。该模板适用于作者在修改后重新投稿时使用，能有效组织对审稿意见的回应。

2025-10-22 16:17:50 467

原创【图像超分】论文复现：轻量化超分 | FMEN的Pytorch源码复现，跑通源码，整合到EDSR-PyTorch中进行训练、重参数化、测试

论文复现摘要：轻量化图像超分辨率网络FMEN的PyTorch实现该工作复现了CVPRW 2022论文《Fast and Memory-Efficient Network Towards Efficient Image Super-Resolution》提出的FMEN网络。主要步骤包括：1) 配置EDSR环境并下载DIV2K数据集；2) 将FMEN源码整合到EDSR-PyTorch框架中；3) 进行模型训练，通过添加参数解析模块实现自定义配置；4) 实现权重重参数化，将BN层合并到卷积层中优化推理速度。复现

2025-10-17 15:50:38 798

原创【图像超分】python实现制作超分辨率数据集

本文介绍了使用Python实现超分辨率数据集制作的方法。主要内容包括：1) 从H.264视频中按指定间隔提取帧的完整代码，使用OpenCV和FFmpeg后端，支持帧间隔设置和错误处理；2) 多线程实现双三次插值图像降采样，可控制缩小倍数（2x/3x/4x），采用三次卷积核函数进行高质量降采样，利用线程池并行处理提高效率。代码提供了完整的参数解析、进度显示和错误处理机制，适合批量处理视频帧生成超分辨率训练数据集。

2025-10-17 15:37:23 376

原创双三次插值（BiCubic Interpolation）超分算法详解

双三次插值是一种经典的图像超分辨率算法，通过考虑目标像素周围16个邻域像素的三次卷积加权来重建高分辨率图像。相比双线性插值，它能更好地保留边缘细节和平滑度。算法实现分为四个步骤：坐标映射、邻域像素选择、权重计算和加权求和，其中权重由三次卷积核函数基于像素距离确定。该算法适用于2-4倍放大场景，在计算资源有限时仍能提供较好的视觉效果，是传统图像处理软件中的标准缩放方法之一。

2025-09-26 16:37:15 2035

原创双三次插值超分辨率工具脚本

该脚本集包含四个图像处理工具：1) RGB转单通道灰度图（适合红外视频处理）；2) 计算两张图片的PSNR值评估图像质量；3) 中心裁剪图片到指定分辨率，可自动放大；4) 从MP4视频中按帧间隔（默认30帧）提取图片。每个工具都提供完整参数和错误处理，支持命令行操作，适用于图像超分辨率、质量评估、视频帧提取等场景。

2025-09-26 16:34:31 239

原创 python实现JPG 图片转换为 EPS 格式

摘要：本文介绍了如何使用Python将JPG图片转换为EPS格式。EPS是一种基于PostScript的矢量图形格式，具有无损缩放特性。通过Pillow库实现转换功能，脚本支持命令行参数输入输出路径自动处理。代码包含文件验证、模式转换(RGB/RGBA处理)和错误处理，可批量转换JPG图片为印刷出版所需的EPS格式。使用示例包括默认路径转换和指定输出路径两种方式。

2025-09-25 10:27:47 237

原创 Shell基础

本文摘要主要介绍了Shell脚本的基础知识和编写方法。第一章阐述了Shell作为命令解释器的作用，以及Shell脚本的概念和特性，包括Sha-Bang和注释的使用方法。第二章详细讲解了Shell脚本中的变量类型：自定义变量（定义、赋值、使用、修改和删除）、环境变量（export命令和配置文件）和特殊变量（$0、$n、$#等）。此外还介绍了Shell脚本的参数传递机制，包括$0获取脚本名称和$n获取参数值的方法。文章通过示例代码演示了脚本的编写和执行过程，包括权限设置和变量操作等基本操作。

2025-09-25 10:26:55 961

原创 .h264或.264视频文件转化成mp4视频

H.264/AVC是广泛应用的高效视频编码格式，仅含视频数据需封装为MP4等容器格式才能播放。本文介绍了H.264的技术特点和应用场景，并详细说明如何通过FFmpeg和Python代码实现.264/.h264文件到MP4的转换。环境配置部分指导用户下载安装FFmpeg并验证，Python代码提供了单个文件转换和批量转换功能，支持直接流复制或重新编码选项，可通过命令行参数灵活控制输出质量和文件覆盖等设置。该方案适用于需要处理原始H.264视频流的各种场景。

2025-09-24 16:59:39 1570

原创 FFmpeg安装（Windows）

本文介绍了在Windows系统上安装FFmpeg的方法。FFmpeg是一个功能强大的多媒体处理工具，支持各种音视频格式。安装步骤包括：从官网下载压缩包、解压到指定位置、添加环境变量。最后通过终端输入"ffmpeg -version"命令验证安装是否成功。整个过程简单明了，适合初学者快速完成FFmpeg的安装配置。

2025-09-24 16:56:56 422

原创论文投稿信(Cover Letter)

这篇博客分享了撰写论文投稿信(Cover Letter)的经验和模板。作者在学习投稿系统要求后，总结了一套标准格式：首先致谢主编，说明投稿意向；接着阐述研究创新点（解决微小器官分割难题）和方法优势（参数少、计算资源需求低）；然后声明文章符合期刊范围且未在其他地方投稿。博文提供了医学图像处理和视频处理两个领域的实际案例模板，最后幽默地用表情包表达投稿心情。全文实用性强，为初次投稿者提供了清晰指导。

2025-09-18 15:19:51 997

原创 2025最新Latex安装：Texlive+Texstudio

本文介绍了2025年最新版LaTeX环境的安装方法，推荐使用Texlive+Texstudio组合替代在线平台Overleaf。Texlive作为编译核心包含各类宏包，Texstudio提供友好编辑界面。详细指导了Texlive 2025的下载、安装过程（包括路径选择、语言包定制）、环境变量配置及安装验证。同时说明了Texstudio的官网下载和基础安装步骤。该方案适合需要处理大文件或复杂排版的用户，避免在线平台的文件大小限制和付费问题，建立完整的本地LaTeX工作环境。

2025-09-18 15:15:26 1231

原创 MySQL学习笔记

本文介绍了数据库的基本分类和MySQL数据库的相关知识。主要内容包括：数据库分为关系型（如MySQL、Oracle）和非关系型（如Redis、MongoDB）两类； MySQL是流行的关系型数据库管理系统，具有体积小、速度快、开源等特点；介绍了MySQL的基本操作命令和SQL语法；详细说明了数据类型（数值、字符串、时间）和字段属性；对比了MyISAM和InnoDB两种存储引擎的特点；讲解了数据库表的修改、删除等操作；介绍了DML语言，包括数据的插入和修改操作。

2025-09-12 13:51:32 1020

原创 Java笔记

本文总结了Java编程基础要点，包括程序结构、数据类型、运算符、控制语句、数组枚举、类与对象、方法等核心内容。重点涵盖了：1) Java基本语法规则如标识符命名、注释方式；2) 变量与常量的定义及使用规范；3) 8种基本数据类型及其运算规则；4) 程序控制语句（带标签break/continue）；5) 数组声明与枚举类型使用；6) 面向对象基础（对象创建、匿名对象）；7) 方法定义、重载及参数传递机制。文中通过典型代码示例演示了各知识点的具体应用，如获取数据类型极值、三元运算符、多维数组等，为Java初学

2025-09-12 13:46:52 1026

原创 overleaf导入模板

本文介绍了如何在Overleaf平台导入Springer Nature模板。首先下载所需的模板压缩包，然后在Overleaf中选择"Upload project"上传该压缩包。上传后会显示模板文件，包括EPS格式图像文件、LaTeX源文件、BibTeX参考文献文件、PDF输出文件以及文档类文件。这些文件共同构成了完整的LaTeX模板，可用于学术论文写作和排版。

2025-09-11 17:21:55 814

原创 Docker 容器传输文件的常用方法

Docker容器与主机间传输文件的四种常用方法：1）docker cp命令适合临时文件传输；2）Docker卷（Volume）实现持久化共享；3）通过Dockerfile的COPY/ADD指令将文件集成到镜像；4）网络传输工具（如wget）适用于跨主机场景。不同方法各有优势：docker cp操作简单，Volume适合长期共享，Dockerfile绑定文件到镜像，网络工具灵活性高。根据实际需求选择合适方式，如临时传输用docker cp，持久化共享用Volume。

2025-09-11 15:30:54 1644

原创生成yolov8 onnx模型

摘要：本文介绍了如何生成YOLOv8的ONNX模型。首先需要下载特定版本的源码和预训练模型，并搭建Python 3.10.12环境，安装指定依赖包。然后通过YOLO类加载pt模型，并使用export方法导出为ONNX格式（opset=13）。整个过程包括代码版本控制、环境配置和模型转换三个主要步骤。

2025-09-10 10:00:05 501

原创二进制数据帧数据提取

摘要本文介绍了两种处理二进制数据帧的方法：1) 从二进制LOG文件提取RecordData并保存到Excel表格；2) 根据Excel数据绘制44条曲线图。第一部分详细说明了如何配置环境、解析二进制文件结构（包含帧头、计数器、数据和校验和），并将提取的44个signed short数值保存为Excel表格。第二部分展示了如何读取Excel数据，使用matplotlib为44个数据列绘制不同颜色和线型的曲线图，并添加图例和网格线。两个方法都包含完整的Python代码实现和错误处理机制。

2025-09-10 09:49:14 187

原创 Hi3516CV610仿真实现yolov8_cpu推理

本文介绍了在Hi3516CV610仿真环境下实现yolov8_cpu推理的完整流程。首先配置了Ascend Toolkit环境变量，然后使用CMake进行编译配置，检测到GNU 11.4.0编译器。通过make命令完成C++代码编译和链接，生成可执行文件。运行程序时，指定yolov8_cpu模型参数，系统成功加载模型并执行推理，详细记录了各层处理过程（包括卷积、切片、拼接等操作）和性能信息。整个过程展示了从环境配置到模型推理的完整链，为基于Hi3516CV610的AI应用开发提供了参考范例。

2025-09-05 17:27:17 248

原创纯数字识别数据集

这是一个纯数字识别数据集文件，包含图像文件压缩包images_ocr_dataset.zip。文件通过百度网盘分享，提供下载链接和提取码0207。该数据集可用于数字识别相关的研究或开发项目。

2025-09-04 15:17:16 167

原创 paddleocr安装步骤及使用案列介绍

本文介绍了PaddleOCR的安装步骤及使用案例。安装部分包括创建conda环境、安装CPU/GPU版PaddlePaddle（提供不同CUDA版本）、验证安装并完成PaddleOCR安装。测试部分展示了OCR、文档结构识别和ChatOCR的调用方法。应用案例提供了两个实用脚本：批量文本识别脚本可处理目录下所有图片并保存识别结果；图片定位脚本通过鼠标交互选取图像区域，支持缩放显示并实时绘制选取框。两个脚本均包含详细注释，便于理解核心功能实现逻辑。

2025-09-04 10:48:48 1295

原创 PPOCRLabel安装步骤及使用

本文介绍了PPOCRLabel工具的安装与使用步骤。首先创建conda环境并安装PaddlePaddle（提供CPU和GPU版本选择），然后验证安装并安装paddleocr和PPOCRLabel工具。启动后，用户可选择普通模式或KIE模式进行标注。文章还提供了调试模式的启动方法，并建议将待标注图片文件夹命名为"images"以便工具识别。该工具适用于图像文本检测、识别及关键词提取等场景的标注工作。

2025-09-04 10:30:49 879

原创 Hi3516cv610_SVP_NPU 环境安装（Docker）

本文详细介绍了在Ubuntu 22.04系统下通过Docker安装SVP_NPU环境的完整流程。首先通过远程镜像仓库拉取专用镜像，提供CPU/GPU两种容器部署方式；然后安装交叉编译工具链；接着分别介绍了官方和替代方法安装SVP_NNN_PC工具及Ascend-cann-toolkit；最后以yolo目标检测示例验证环境配置，成功完成编译测试。整个流程包含详细的命令操作和截图说明，为NPU开发环境搭建提供了完整指导。

2025-08-25 15:11:25 337

原创 python实现图像增强

图像数据增强是指通过一系列图像处理技术，对原始图像进行变换或修改，以生成与原始图像相似但又不完全相同的新图像样本。1.增加数据多样性：通过变换图像的亮度、对比度、颜色、角度等属性，生成多样化的图像样本，使模型能够学习到更加全面的特征表示。2.提高模型泛化能力：增加训练数据集的规模和多样性，有助于模型摆脱对特定样本的过度依赖，提高在未见过的数据上的表现能力。1.保持数据特性：增强后的图像应尽可能保持原始图像的重要信息和特征，避免引入过多与任务无关的变化。（3）缩放：改变图像的大小，包括放大和缩小。

2025-08-21 10:13:26 549

原创数据标注：labelimg和Labelme的安装

图像数据标注是指通过人工或自动化的方式，对图像中的目标对象、场景、属性等进行标记和注释的过程。图像标注后，生成的 json 文件是保存的分割边界坐标，还需要进一步处理，将描述文件转换为分割实例图像。3D 标注：对图像中的物体进行三维空间中的标注，包括物体的形状、大小、位置等。此外，还有 OCR 转写（对图像中的文字内容进行标记与转写）、属性判别（识别并标注图像中目标物体的属性）等标注方法。2.制定标注规范：根据任务需求和数据特点，制定详细的标注规范，包括标注目标、标注方法、标注精度等。

2025-08-21 10:06:49 886

转载 YUV420数据格式详解

YUVplanar和packed。对于planar的YUV格式，先连续存储所有点的Y，紧接着存储所有像素点的U，随后是所有像素点的V。对于packed的YUV格式，每个像素点的Y,U,V是连续交叉存储的。YUV分为三个分量，Y表示明亮度（Luminance或Luma），也就是灰度值；而U和V表示的则是色度（Chrominance或Chroma），作用是描述影像色彩及饱和度，用于指定像素的颜色。

2025-08-20 16:21:25 160

原创 HLS协议

协议通过将视频文件切分成多个小的媒体段（通常是10秒左右的.ts文件），并通过HTTP传输给客户端。M3U8文件是HLS的核心部分，它是一个UTF-8编码的播放列表，描述了视频段和相关的元数据。广泛的CDN兼容性：因为HLS使用HTTP协议，它可以很容易地通过内容分发网络（CDN）进行分发，确保高效的视频传输。自适应流：HLS支持多个不同码率的视频流，客户端根据当前带宽情况自动切换最佳码率，提供更好的观看体验。内容保护：HLS支持加密流，提供了对视频内容的保护，确保视频播放时不会被未经授权的用户访问。

2025-08-20 15:32:04 797

原创 SRT协议

转载于博主却道天凉_好个秋（Secure Reliable Transport）是一种开源的网络传输协议，专为实时音视频数据传输设计，具有低延迟、高可靠性和安全性等特点。

2025-08-20 15:26:59 699

原创 HTTP-FLV协议

FLV 是一种容器格式，主要用于存储视频和音频数据，最早由 Adobe 用于 Flash 播放器的视频流播放。FLV 文件可以包含多种编码格式的视频（如 H.264）和音频（如 MP3 或 AAC）流，便于在 Flash 播放器上流式传输。尽管 Flash Player 已经被淘汰，FLV 格式仍然在一些直播和点播服务中被使用，尤其是在 Flash 被广泛应用于早期的 Web 视频和直播平台中。HTTP-FLV 是通过 HTTP 协议传输 FLV 视频流的技术方案。

2025-08-20 15:25:35 973

转载 RTSP协议

RTSP(Real-Time Stream Protocol)协议是一个基于文本的多媒体播放控制协议，属于应用层。RTSP以客户端方式工作，对流媒体提供播放、暂停、后退、前进等操作。该标准由IETF指定，对应的协议是RFC2326。RTSP作为一个应用层协议，提供了一个可供扩展的框架，使得流媒体的受控和点播变得可能，它主要用来控制具有实时特性的数据的发送，但其本身并不用于传送流媒体数据，而必须依赖下层传输协议(如RTP/RTCP)所提供的服务来完成流媒体数据的传送。

2025-08-20 15:18:12 190

转载 RTP协议

流媒体：使用流式传输技术的连续时基媒体。使用流式传输可以边下载边播放，无需等待音频或视频数据信息全部下载完成后再播放。混频器（Mixer）：一种中间系统，将一个或多个源的RTP数据包合成一个新的RTP数据包，然后转发出去。混频器可能会改变数据包的数据格式，并对各个流组合的新数据包生成一个新SSRC。转换器（Translator）：一种中间系统，转发RTP数据包但不改变数据包的同步源标识符，可用于通过IP多播无法直接到达的用户区，如在防火墙两端使用转换器，外侧转换器通过安全连接将数据传输到内侧转换器。

2025-08-20 15:15:13 146

yolov8的模型以及训练测试代码

计算机408知识点思维导图

空空如也