自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 【零基础强化学习】前置阶段

这里我学习的是磨菇书,是一个非常棒强化学习的教程。磨菇书。

2026-01-19 10:17:19 906

原创 【零基础强化学习】第二阶段:黑盒DQN 开箱

上一章代码使用的 Stable-Baselines3 等现成库,尽管了解了各参数的作用,但是具体是怎么训练的还尚未可知。这一章就完整的手写DQN实现,深入理解DQN的每个组件。

2026-01-18 17:30:40 394

原创 【零基础强化学习】第一阶段:基础 DQN

MountainCar 是一个经典的强化学习环境,目标是通过控制小车的加速方向(向左/向右/不加速),使其从山谷底部到达右侧山顶(旗帜位置)。挑战:小车动力不足,无法直接冲上坡,需要利用重力在两侧坡面之间来回摆动积蓄能量。成功标准:总奖励 > -110(约 140 步内到达山顶)

2026-01-18 16:22:48 737

原创 收藏夹拯救计划:每周一篇,拒绝吃灰[1] —— 大模型数据标注

推理任务的数据标注是一场对逻辑严谨性的极致追求。它要求我们不仅设计出引导正确思考路径的思维链,还需对思考过程本身进行细粒度监督,并通过严格的培训与量化体系确保每一步标注都经得起逻辑推敲。从依赖昂贵人工的PRM800K,到自动化高效的OmegaPRM,再到领悟“推理模式”即可的PARO框架,技术演进的核心始终是:如何以可持续的成本,为模型注入更可靠、更深刻的推理能力。

2026-01-05 22:51:09 650

原创 Docling学习笔记(含本地部署教程)

最近在学习RAG的文档解析板块,发现有太多工具可以使用。之前对比过一些常用的工具,后续发现对这些工具并没有太深入的学习使用方法,就比如docling,当时解析PDF发现不太理想,整体不如MinerU,但是不少博客的对比试验又表明docling也是非常强大的解析工具,更胜于MinerU,所以决定重新学习docling,也学者根据GitHub上的文档来一步一步掌握这个工具。docling项目地址:https://github.com/docling-project/docling?tab=readme-ov-f

2025-09-02 18:50:50 1843 1

原创 对于PDF解析,不同工具的对比分析

做这个对比分析,是为了更好地学习RAG文档解析环节。之前盲目地相信AI coding,没了解PDF解析原理,在批量解析PDF构建向量数据库后,通过检索发现并没有得到有效解析。用的工具是MinerU,进行版面分析,后退策略(若是MinerU不可用,现在看来根本没必要)使用PyMuPDF,在解析过程中一直反馈依赖安装问题,也就是magic-pdf一直报错(不存在,即使我已经安装了,但是因为版本原因读取不到),所以全程使用的PyMuPDF。所以痛定思痛,打算认真学习一下PDF的解析工具。

2025-08-18 16:52:34 1249

原创 RAG学习笔记

从之前的实践来看,结构化解析的效果是明显强于常规的文件内容提取的。相对于常规的文件内容提取,结构化解析保留了文件的层级结构以及各个层级的标题信息,可以有效提升文档内容的召回率。常规 RAG 文件解析方案为了尽可能提升结构化解析能力,常规情况下会选择实现基础文件类型的结构化解析,其他文件尽可能转换为基础文件类型。而目前最常见适用于结构化解析的基础类型为 html 和 markdown。比如目前最常见的 pdf 格式,热门开源项目 marker 和 MinerU 都在尝试将其转换为 markdown 格式。

2025-08-17 20:28:56 1065

原创 处理结构化数据生成SFT数据(比赛过程记录——自用)

后查阅资料,发现有可能是因为之前生成的数据只有正样本,这样可能会使模型将不同的意图识别为一种,仅靠正例训练,模型可能学到一些肤浅的、只在训练数据中有效的模式(比如记住特定的关键词组合),而无法泛化到真实场景中多样的表达。使用的是采样的方式,生成600多条数据。③越界查询:请求未开通的服务或超出数据范围 (如要求预订D100次列车的「餐车送餐」服务(但该车次未开通此服务))很夸张,赶紧去查看为什么会出现这样的结果(下面贴的是训练0.6B模型的数据,4B模型的训练参数是一样的)

2025-07-31 16:03:05 360

原创 微调参数融合

存储效率:只需保存少量LoRA参数(通常<1%的原始模型大小)灵活性:可以轻松切换不同的LoRA适配器而不影响基础模型性能保持:在大幅减少参数量的同时保持模型性能这种架构使得甄嬛角色对话系统能够高效地利用预训练模型的通用能力,同时通过LoRA微调注入特定的角色特征。

2025-07-26 10:56:28 534

原创 微调一个0.5B的edge agent(使用Qwen2.5-0.5B)

该文章自用于微调项目学习。

2025-07-26 10:54:11 272 1

手写简单 DQN RL 用于强化学习基础学习

手写简单 DQN RL 用于强化学习基础学习

2026-01-18

对于财务报告PDF解析,不同工具的对比分析

对于财务报告PDF解析,不同工具的对比分析

2025-08-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除