自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Thomas_Cai的记忆殿堂

个人笔记,希望也帮到你~

  • 博客(174)
  • 收藏
  • 关注

原创 MCP服务创建指南

本文探讨了大规模表格分析中的技术挑战,介绍了MCP(Model Context Protocol)作为解决方案。文章对比了FunctionCall和MCP两种工具调用方式,指出MCP通过标准化协议解决了生态兼容性问题。详细阐述了MCP的基本架构、通信协议(STDIO/SSE/HTTP)和核心流程,并以VsCode+Cline配置table-reader服务为例,展示了MCP在分块处理大规模表格数据时的实际应用。最后指出MCP的局限性包括提示词设计要求和较高的Token消耗。

2025-12-13 19:13:33 565

原创 YOLOv10剪枝|稀疏训练、基于torch-pruning剪枝以及微调实践

详细介绍了YOLOv10模型的结构化剪枝方法,重点阐述了稀疏训练原理以及结构化剪枝的实现分析。

2025-12-13 19:13:28 1

原创 大模型微调快速入门

本文介绍了基于LLaMA-Factory框架的大模型微调全流程。首先对比了主流微调工具的特点,选定LLaMA-Factory作为开发框架。随后详细说明了环境搭建步骤,包括创建Python 3.10虚拟环境、源码安装及验证。在数据准备环节,重点阐述了数据集JSON文件的配置格式要求,包括dataset_info.json的结构和关联数据文件规范。最后简要介绍了通过图形化界面启动训练的过程,并提及训练过程中的损失曲线监控功能。全文为开发者提供了从框架选型到实际训练的全流程指导。

2025-11-01 17:37:36 502

原创 Langgraph研究

LangGraph是一个用于构建多步骤LLM工作流的开源框架,采用有向图(DAG)定义流程。核心概念包括节点(Node)、边(Edge)、状态(State)和图(Graph),支持可视化、可控制和有状态的流程编排。框架提供了add_node、add_edge等方法构建工作流,并支持条件分支。特别介绍了Agent的实现方式,通过"工具调用+模型循环"的ReAct范式执行任务,包含ToolNode、状态注入等关键组件。最后给出一个最小实现示例,展示如何通过条件边控制Agent循环执行工具调用。

2025-11-01 17:37:24 1168

原创 DINOv1/v2/v3简明理解

DINO是一种自监督视觉表征学习方法,通过教师-学生框架实现无标签学习。其核心机制包括:教师模型通过EMA(指数移动平均)从学生模型逐步演化,提供稳定目标;多视角一致性约束使模型学习高层语义;centering和sharpening技术防止特征坍塌。相比对比学习,DINO仅需正样本对,训练更简单。DINOv2进一步扩展了数据规模(1.42亿图像)和模型能力,引入Patch级目标等优化。DINOv3则致力于更大规模(170亿图像)和多任务通用性提升。

2025-10-20 14:38:19 1236

原创 Jetson上安装TensorRT

本文介绍了Jetson系统镜像安装CUDA、cuDNN、TensorRT等组件的详细步骤。主要内容包括:1)区分Jetson和Server版NVIDIA组件的差异;2)提供检测Jetson组件版本的脚本;3)详细说明从更新源到安装CUDA、cuDNN、TensorRT的完整流程,包括解决常见错误的方法;4)指导如何安装TensorRT工具trtexec。文章特别强调了JetPack版本组件与Ubuntu官方版本的区别,并提供了环境变量配置、错误排查等实用技巧,帮助用户正确安装和配置Jetson开发环境。

2025-10-20 14:34:09 446

原创 YOLOv8支持旋转框检测(OBB)任务随记

本文介绍了YOLOv8-OBB旋转框检测任务的快速上手指南。主要内容包括:1)数据集制作需将旋转框坐标转为分割任务格式并进行重采样;2)训练过程将预测角度转换为xywh格式计算IOU损失,并解释了数据增强和标签转换原理;3)详细分析了网络输出结构和损失函数计算方式;4)说明推理阶段直接输出中心点坐标、宽高和角度的后处理流程。文章还提供了官方文档参考链接,帮助读者快速实现旋转框检测任务。

2025-09-06 18:13:27 1169

原创 时序预测力作PatchMixer论文理解

本文提出PatchMixer模型,这是一种基于深度可分离卷积和补丁混合架构的时间序列预测方法。模型通过将时间序列划分为补丁进行处理,采用双头预测机制分别建模线性和非线性模式。训练流程包括数据准备、模型建立、损失定义、参数优化等步骤,关键超参数包括补丁大小、学习率、批量大小等。预测过程通过补丁划分、嵌入和深度可分离卷积处理实现。实验采用7:1:2的数据划分比例,输入序列长度为96时,模型可预测未来96个时间点。结果表明PatchMixer能有效捕捉时间序列特征,在预测任务中展现出优良性能。代码已在GitHub

2025-05-28 17:46:46 1182

原创 deepseek开源资料汇总

deepseek开源技术回顾

2025-05-27 16:38:56 1501

原创 本地部署dify爬坑指南

本文介绍了Dify平台的本地部署流程及注意事项。主要内容包括:1)Docker Compose安装指南;2)解决Docker网络问题的详细步骤,包括镜像源配置和DNS设置;3)Dify本地部署命令;4)模型部署方法,建议在与Dify网络互通的环境中运行。文章提供了完整的操作流程和参考链接,帮助用户避免常见安装问题,实现Dify平台的顺利部署和使用。

2025-05-27 16:33:26 1130

原创 LangChain理解

langchain的使用笔记

2025-05-26 16:27:45 335

原创 yolov8分割任务的推理和后处理解析

yolov8分割任务的后处理解析

2025-05-26 16:26:19 2513 2

原创 Encoder和Decoder的区别

编码器和解码器的区别

2025-05-04 17:09:01 1803 1

原创 FastApi快速实践

python+FastAPI 1分钟快速入手

2025-05-04 17:07:30 573

原创 Sentence-BERT论文解析

标准的三段式:目前的方法弊端——这篇文章的提出——这篇文章方法的效果目前的方法弊端目前的方法:BERT(Devlin等人,2018)和RoBERTA(Liu et al,2019)在语义文本相似性(STS)等双对回归任务上设置了最先进的性能。弊端:然而,它需要将两个句子都输入到网络中,这导致了巨大的计算开销:在10000个句子的集合中找到最相似的一对需要大约5000万次推理计算(约65小时)BERT的构造使其不适合语义相似性搜索以及聚类等无监督任务。句子的输入导致巨大的计算开销。

2025-04-06 16:49:15 1054 1

原创 Bert论文解析

引入一种新的语言表示模型BERT,它源于Transformers的双向编码器表示。BEncoderRTBERT的原理简述——便捷性BERT旨在通过联合调节所有层中的左右上下文,从未标记文本中预训练深度双向表示。因此,只需一个额外的输出层即可对预训练的BERT模型进行微调,为各种任务(例如问答和语言推理)创建最先进的模型,而无需对特定任务的架构进行实质性修改。BERT的效果。

2025-04-06 16:47:36 1306

原创 Python的线程、进程与协程

进程:进程是操作系统分配资源的基本单位,每个进程都有独立的内存空间,包含代码、数据和系统资源。进程之间相互隔离,一个进程崩溃不会影响其他进程。线程:线程是进程内的执行单元,一个进程可以包含多个线程。线程共享进程的内存空间和资源,因此线程间的通信比进程间更高效,但也更容易出现数据竞争等问题。

2025-03-25 19:29:55 1368

原创 批归一化(Batch Normalization)与层归一化(Layer Normalization)的区别与联系

与 Batch Normalization(批归一化)的目标类似,都是为了加速训练并提高模型性能,但它们的归一化方式和应用场景有所不同。Layer Normalization 是对单个样本的所有特征进行归一化,而不是像 Batch Normalization 那样对整个 mini-batch 的每个特征进行归一化。Batch Normalization 还会对归一化后的数据进行缩放和平移,引入可学习的参数。Layer Normalization 还会对归一化后的数据进行缩放和平移,引入可学习的参数。

2025-03-25 19:27:11 1566

原创 一文解读python的高阶功能:从闭包到装饰器的理解

一文解读python的高阶功能:从闭包到装饰器的理解

2025-03-14 19:39:59 1073

原创 时序预测最新力作PatchMixer代码的数据集划分理解

时序预测最新力作

2025-03-14 19:39:44 763

原创 一文解读python高阶功能:匿名函数到魔法方法(__call__)

python的匿名函数到"__call__"方法

2025-03-14 18:05:22 783

原创 vscode(cursor)配置python环境,含远程调试

一文教你用AI编程工具Cursor的各种常用功能

2025-03-10 10:16:52 4310 1

原创 优化Langchain-Chatchat数据库对话功能

deepseek分析数据库数据,以后还需要后端吗?

2025-03-10 10:09:18 1913 3

原创 三步教你在linux上本地部署DeepSeek-R1

云端API太贵?想保护自己的数据?没问题,三步教你本地部署DeepSeek,敢不敢挑战?以linux系统为例,windows也是同样的流程。

2025-02-23 11:36:49 3416

原创 AWQ和GPTQ量化的区别

DeepSeek模型量化版能节约大量现存,所以要不要用呢?一文给你答案。

2025-02-23 11:33:50 3142

原创 想加速模型推理?试试用int8量化呢

int8量化详解

2024-12-31 09:36:44 2483 1

原创 一文彻底理解混淆矩阵

一文彻底理解混淆矩阵

2024-12-31 09:36:18 5127 1

原创 Go语言启动独立进程

Go语言进展中启动另一个进程,如何保持另一个进程独立?

2024-12-19 18:14:31 952

原创 FlashAttention理解

注意力机制优化方法FlashAttention

2024-12-19 18:14:25 2492

原创 自注意力机制的理解

自注意力机制的相关问答

2024-12-14 09:02:41 2057

原创 linux终端关闭,训练就停止怎么办?

挂起训练的三大方法

2024-12-14 09:02:12 973

原创 多标签分类SOTA | ADDS论文解读

《Open Vocabulary Multi-Label Classification with Dual-Modal Decoder on Aligned Visual-Textual Features》论文要点笔记

2024-12-11 18:54:25 2535

原创 softmax+交叉熵损失函数的数值举例

交叉熵数值举例

2024-12-11 18:54:18 863

原创 微调时冻结批处理正则化层(BN)的意义在哪

冻结bn的意义

2024-12-03 19:28:57 1720

原创 多卡分布式训练修改为单卡训练(为了本地调试)

分布式训练多卡修改单卡,本地调试

2024-12-03 19:06:45 738

原创 图像分类公开数据集信息汇总

对37个图像分类公开数据集的总结,分别图片数量,类别,以及包含图像内容的一些信息,帮助模型选型。

2024-12-01 11:24:23 2953

原创 pytorch框架的模型定义以及推理数据流向

深度学习网络搭建系列之模型定义

2024-12-01 11:13:56 962

原创 Python后端flask框架接收zip压缩包方法

Python后端flask框架速查

2024-11-22 19:11:37 1408

原创 sigmoid和softmax的异同以及对应的loss解析

激活函数和损失函数联合理解

2024-11-22 19:03:19 895

原创 用go语言后端开发速查

用go语言发送请求和接收请求的快速参考

2024-11-16 17:55:22 979

异常检测模型快速训练窗口可视化插件

异常检测anomalib框架快速训练窗口可视化插件,框架已支持模型: 1. cfa 2. cflow 3. components 4. csflow 5. dfkde 6. dfm 7. dream 8. efficient_ad 9. fastflow 10. ganomaly 11. padim 12. patchcore 13. reverse_distillation 14. rkde 15. stfpm

2024-04-06

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除