嗨，紫玉灵神熊-CSDN博客

原创微调神器LLaMA-Factory保姆级教程来了，从微调到导出权重

摘要：LLaMA-Factory是一个开源的大模型训练与微调平台，支持LoRA、QLoRA等高效算法。安装后可通过Web界面操作，支持从Hugging Face或ModelScope下载模型。平台提供数据集管理功能，内置预存数据并支持自定义数据集导入。用户可灵活选择量化方法和控制参数进行训练，完成后可验证并导出模型。该平台简化了大模型微调流程，适合开发者快速适配和部署各类大语言模型。

2026-03-19 16:38:48 94

原创用codex和trae工具实现图像骨架线提取

本文介绍了骨架线提取的核心原理及其在染色体分析等领域的应用。重点讲解了两种主流算法：Zhang-Suen快速并行细化算法和基于图论的最短路径算法，并提供了Python实现方案。骨架线提取通过对二值图像进行迭代边缘像素删除，最终保留1像素宽的中轴线，能有效保持目标拓扑结构。实验比较了脊线追踪、图论方法、骨架细化、主动轮廓模型和距离变换脊线等五种提取方法的效果，其中skimage.morphology.skeletonize方法表现最佳。文中还提供了完整的代码实现，包括预处理、骨架提取和后处理步骤，可用于染色体

2026-03-11 14:20:13 185

原创 PageIndex：无向量的rag解决方案，让文档智能检索更高效的结构化解析引擎

PageIndex是一款智能文档解析引擎，通过将非结构化文档（PDF/Word/PPT等）转化为树状结构化节点并生成精准摘要，显著提升RAG（检索增强生成）流程中的检索效率。其核心价值体现在四个方面：1）结构化解析文档内容，保留逻辑完整性；2）基于语义的精准检索，提升50%以上召回率；3）通过节点摘要优化大幅降低LLM调用成本；4）提供可追溯的检索链路，增强结果可信度。相比传统文本分割方法，PageIndex支持主题/章节级检索，适配超长文档，并实现答案溯源（如定位到具体页码）。

2026-02-25 10:11:40 1135

原创搭建本地的rag(可运行)基于vllm部署的模型以及搭建的milvus数据库

RAG（检索增强生成）是一种结合信息检索和大语言模型的技术，通过引入外部知识库解决大模型的三大痛点：知识幻觉、知识滞后和专业领域不足。其工作流程分为四步：文档预处理、用户提问检索、提示词拼接和大模型生成回答。本文详细介绍了如何搭建本地RAG系统，包括项目结构设计、核心模块实现（文档处理、向量存储、LLM服务等）、API接口设计以及错误处理机制。系统采用Tornado框架，集成Milvus向量数据库、vLLM大模型和Ollama编码模型，支持企业知识库、专业领域和实时资讯问答等场景。

2026-01-06 16:42:02 1084

原创 LightRAG对自定义的知识图谱数据进行文本嵌入

LightRAG是一款轻量级检索增强生成框架，专为私有化智能知识库构建设计。核心特点包括：1）本地化部署，数据全存储在本地目录；2）一体化封装RAG全流程（数据入库、向量化、检索、LLM调用）；3）支持灵活扩展自定义LLM和嵌入模型；4）异步接口和缓存优化提升效率。框架通过简单API即可实现知识图谱构建与问答，支持JSON格式的实体关系数据导入，适配内网环境下的私有模型部署，显著降低RAG开发门槛。

2025-12-23 09:51:26 573

原创基于python中的ast库解析代码生成知识图谱

摘要：本文介绍了一个基于Python ast模块的代码知识图谱构建系统。系统通过解析Python源代码生成抽象语法树(AST)，提取函数/类作为实体，分析调用关系，并整合大模型生成功能描述。主要功能包括：1) 代码结构化解析，将Python文件转换为模块路径；2) 实体抽取，包括函数参数、类方法等元数据；3) 调用关系分析，支持多种调用场景；4) 智能描述生成，结合文档字符串和大模型输出。系统最终输出包含代码片段(chunks)、实体(entities)和关系(relationships)的JSON文件，可

2025-12-23 09:30:21 1038

原创 Python实现图像区域内最大值的函数：maximum_filter

摘要：maximum_filter是SciPy库中用于提取局部最大值的图像处理函数，通过滑动窗口对邻域元素取最大值。其核心参数包括窗口大小(size)、边界处理模式(mode)及结构元素控制。典型应用场景如示例代码所示，通过结合最大值过滤、区域生长和形态学操作，实现梯度区域的精确提取——先检测亮度超过阈值且满足最小间距的局部最大值点，再以这些种子点进行八邻域生长，最后通过形态学处理优化结果。该函数在特征点检测、边缘增强等任务中具有重要作用。

2025-07-14 10:20:33 447

原创分水岭算法：图像分割的浸水原理

分水岭算法是一种基于拓扑地貌思想的图像分割方法。算法将图像灰度值视为海拔高度，通过模拟浸水过程提取边界：局部极小值对应集水盆（区域内部），分水岭线则作为区域边界。关键步骤包括梯度计算预处理、标记控制和分水岭变换。算法实现中，首先进行灰度转换、阈值分割和形态学处理，然后通过距离变换确定前景区域，最后应用分水岭函数标记边界。该算法能有效分离粘连对象，但需注意噪声控制和标记准确性。

2025-07-08 15:19:50 616

原创使用 OpenCV 实现图像中心旋转

在图像处理中，围绕中心点旋转图像是一个常见的需求。无论是为了数据增强、视觉效果，还是图像对齐，旋转图像都是一项基础且重要的操作。本文将详细介绍如何使用 OpenCV 实现围绕图像中心旋转的功能。

2025-04-29 10:00:17 1050

原创使用 OpenCV 实现图像等比例填充或保持宽高比填充

对图像进行不变形填充（也称为等比例填充或保持宽高比填充）通过这种技术，可以在保持图像内容完整性的同时，满足下游任务对尺寸的严格要求。

2025-04-25 11:43:03 730

原创使用diffusers库训练自己的数据

在这个代码链接里面拉取最新的代码，里面的examples有很多使用实例，比如说原始的diffusion，控制网络等等，对应的任务就是无条件图像生成、文本到图像、文本引导的图像到图像的生成任务等等，可以根据自己的需求选择。里面的内容来进行训练，使用hugging face 提供的数据集，如何要训练自己的数据集的话，就按照提供的数据集替换里面的内容就好了。需要注意的是需要将.py的名字改成和你存放路径同样的名字，然后将存放路径作为 train_data_dir的参数传入，就可以训练了。

2025-02-25 10:12:18 730

原创如何将分割的mask转为为分割标签

将分割的mask转换为分割标签通常涉及将每个像素的类别标识（在mask中以不同的灰度值或颜色表示）转换为整数标签。这些标签通常用于机器学习或深度学习模型的训练、验证和测试阶段。转换代码，来自X_anyLabeling的tool文件夹下的转换文件。

2025-01-08 11:44:00 365

原创 YOLOv8分割训练自己的数据全面指南：从环境搭建到训练、验证及预测的深度解析

YOLOv8是Ultralytics公司推出的YOLO（You Only Look Once）目标检测系列版本。它是一个先进的、实时的目标检测模型，旨在提供高精度和高速度的目标检测能力。YOLOv8建立在YOLO系列之前版本的成功基础上，并引入了多项新的功能和改进，以进一步提升模型的性能和灵活性。具体来说，YOLOv8采用了新的网络结构，包括新的骨干网络、特征融合模块和检测头，以优化特征提取和目标检测的能力。它还引入了新的损失函数和标签分配策略，以提高模型的学习效率和检测准确性。

2024-11-19 10:48:03 1217

原创将分割标签数据从JSON格式转换为YOLOv8的TXT格式

AnyLabeling是一款突破性的开源图像标注工具。

2024-11-18 17:55:13 1402 3

原创使用高斯差分DOG（Difference of Gaussians）检测图像中的斑点或者边缘

高斯差分是指两个不同尺度下的高斯模糊图像之间的差值。具体而言，它通过对原始灰度图像应用两个具有不同标准差的高斯核进行卷积，得到两个模糊图像，然后计算这两个模糊图像之间的差分，从而生成高斯差分图像。

2024-11-11 10:17:53 1533

原创 cv2.threshold利用OTSU方法分割图像的前景和背景

该方法由日本学者大津（Nobuyuki Otsu）于1979年提出，旨在通过最大化前景与背景之间的类间方差来自动确定一个最佳阈值，从而将图像分割成前景和背景两部分。OTSU方法具有自适应性强、分割效果好的优点，特别适用于目标单一的图像分割。然而，对于多目标图像或灰度分布不均匀的图像，OTSU方法可能无法获得理想的分割效果。OTSU方法的核心思想是寻找一个阈值T，使得图像的前景（高灰度值区域）和背景（低灰度值区域）之间具有最大的类间方差。类间方差越大，说明前景和背景的区分度越高，分割效果越好。

2024-11-06 09:36:15 1064

原创 cv2.Laplacian利用LOG（Laplacian of Gaussian, LOG）提取图像的边缘或者检测斑点

利用高斯拉普拉斯算子（Laplacian of Gaussian, LOG）提取图像边缘是一种结合了高斯平滑和拉普拉斯边缘检测的方法。这种方法首先使用高斯滤波器对图像进行平滑处理，以减少噪声对边缘检测的影响，然后应用拉普拉斯算子来检测平滑后图像中的边缘。拉普拉斯算子的结果是一个图像，其中边缘区域会有较高的绝对值。对平滑后的图像应用拉普拉斯算子，使用OpenCV的。函数或Matplotlib库来显示边缘检测结果。函数对灰度图像进行高斯平滑处理。你需要导入OpenCV（函数将图像转换为灰度图像。

2024-11-05 14:03:08 753

原创 Nomacs：Linux下的全能图像查看器，快速、多功能与跨平台体验

Nomacs是一款免费的开源图像查看器，专为Linux系统以及其他操作系统（如Windows、MacOS、FreeBSD等）设计。它以其快速启动、图片打开速度快以及多窗口运行的能力而著称。Nomacs的界面简洁直观，提供了丰富的功能来满足用户的不同需求。

2024-09-27 09:09:21 2523

原创 The Llama 3 Herd of Models 第8部分语音实验部分全文

Llama 3第8部分，语音实验部分

2024-08-05 15:45:25 1651 1

原创 The Llama 3 Herd of Models 第7部分视觉实验部分全文

Llama 3第7部分，视觉实验部分

2024-08-05 15:25:12 1182

原创基于DDP的单机多卡分布式训练深度学习程序

单机多卡训练程序

2024-08-01 16:52:44 1971

原创 The Llama 3 Herd of Models 第6部分推理部分全文

Llama 3第6部分，推理部分

2024-07-29 16:46:21 984

原创 The Llama 3 Herd of Models 第5部分，结果部分全文

Llama 3第5部分，结果部分

2024-07-29 16:28:20 1036

原创 The Llama 3 Herd of Models 第4部分后训练的全文

Llama 3 第4部分全文

2024-07-29 10:57:49 801

原创计算model的参数量和计算量通过summary和ptflops方法

查询model的参数量和计算量

2024-07-26 15:06:04 665

原创 The Llama 3 Herd of Models.Llama 3 模型第1,2,3部分全文

Llama 3 模型论文全文，了解Llama 3的训练细节和效果

2024-07-25 16:25:51 2445

原创使用pymongo连接mongodb数据库与在mongodb数据库中查询数据

使用pymongo连接mongodb数据库与在mongodb数据库中查询数据

2024-07-25 09:50:42 787

原创测试集数据语义特征t_SNE降维可视化

载入训练好的模型，对测试集图像进行分类在图像分类通用步骤中，第一步是训练数据集，第二步是测试数据集，而无论是训练还是测试，对我们而言都是黑盒子。我们只知道模型从训练数据中学习到了特征，然后应用到测试集数据集中，最终得出测试集数据的分类结果。对于其中的细节，我们就不得而知了。因此本文将在训练好模型的基础上，在测试集进行数据降维可视化，观察模型将不同数据划分到什么位置，有助于我们理解模型在面对图像是进行了怎样的判断。载入训练好的模型，对测试集图像进行分类数据预处理，采用ImageNet的预处理方式载入数据。

2022-10-24 16:08:09 5015 2

原创 2022华为杯C题汽车制造涂装-总装缓存调序区调度优化问题建模解决

如果去除PBS约束说明中第6、7两条约束，其余约束不变，根据涂装出车序列，考虑PBS区域调度能力及限制，建立PBS优化调度模型，使得总装进车序列尽可能满足总装生产需求。由于各车间的约束不同导致生产调度无法按照同一序列连续生产，特别是涂装车间与总装车间序列差异较大，这就需要在两个车间之间建立一个具有调序功能的缓存区，即PBS（Painted Body Store，汽车制造涂装-总装缓存调序区），用来将涂装车间的出车序列调整到满足总装车间约束的进车序列。各车道距离等分，每车道宽度2米，两相邻车道间间隔1米。

2022-10-11 14:35:43 1937 1

原创深度学习过程中测试准确率先上升后下降是为什么？

在初始训练阶段，模型逐渐开始学习到一些信息，因而在验证集上的表现是提升的，在到达某一点后，模型接着训练则会更加的去关注一些细枝末节的东西，即模型表达更加多。1.早停，既然模型在某一点时达到最优，那么就设置模型在最优点附近停止训练。在整个训练过程中，虽然说模型出现了过拟合，但是其在训练集上的损失还是趋于平稳的，并不会说因为过拟合而导致损失波动。在训练过程中的验证准确率前上升，后下降，即在验证集上的表现先好后差。3.改变数据，使数据更加复杂，多变，适应模型，也能取得不错的效果。2.为模型增加惩罚项，即正则化。

2022-09-11 10:26:17 11720 1

原创 pytorch迁移学习载入部分权重

使用官方预训练权重，这样的权重包含的信息量大且全面，可以适配一些小数据的任务，即小数据在使用迁移学习后仍然能够保持良好的性能，避免的小数据带来的数据不足，模型训练不充分的问题。载入自己的训练的权重在模型测试和继续训练时使用较多，模型测试载入权重就不说了，继续训练是指假设设置epoch为500，训练接受后，发现模型仍然没有收敛，那么你就可以载入epoch为500时的训练权重，再训练500的epoch，这样你对模型就总共训练了1000个epoch，而不需要在发现模型未收敛时，又重头去训练1000个epoch。

2022-09-05 16:54:51 3026 1

清华大学DeepSeek：从入门到精通

YOLOv5网络结构完整版，Visio源文件

图像分类数据集Oxford-102花分类数据集

空空如也