一包惆怅的辣条-CSDN博客

原创【零基础强化学习】前置阶段

这里我学习的是磨菇书，是一个非常棒强化学习的教程。磨菇书。

2026-01-19 10:17:19 906

原创【零基础强化学习】第二阶段：黑盒DQN 开箱

上一章代码使用的 Stable-Baselines3 等现成库，尽管了解了各参数的作用，但是具体是怎么训练的还尚未可知。这一章就完整的手写DQN实现，深入理解DQN的每个组件。

2026-01-18 17:30:40 394

原创【零基础强化学习】第一阶段：基础 DQN

MountainCar 是一个经典的强化学习环境，目标是通过控制小车的加速方向（向左/向右/不加速），使其从山谷底部到达右侧山顶（旗帜位置）。挑战：小车动力不足，无法直接冲上坡，需要利用重力在两侧坡面之间来回摆动积蓄能量。成功标准：总奖励 > -110（约 140 步内到达山顶）

2026-01-18 16:22:48 737

原创收藏夹拯救计划：每周一篇，拒绝吃灰[1] —— 大模型数据标注

推理任务的数据标注是一场对逻辑严谨性的极致追求。它要求我们不仅设计出引导正确思考路径的思维链，还需对思考过程本身进行细粒度监督，并通过严格的培训与量化体系确保每一步标注都经得起逻辑推敲。从依赖昂贵人工的PRM800K，到自动化高效的OmegaPRM，再到领悟“推理模式”即可的PARO框架，技术演进的核心始终是：如何以可持续的成本，为模型注入更可靠、更深刻的推理能力。

2026-01-05 22:51:09 650

最近在学习RAG的文档解析板块，发现有太多工具可以使用。之前对比过一些常用的工具，后续发现对这些工具并没有太深入的学习使用方法，就比如docling，当时解析PDF发现不太理想，整体不如MinerU，但是不少博客的对比试验又表明docling也是非常强大的解析工具，更胜于MinerU，所以决定重新学习docling，也学者根据GitHub上的文档来一步一步掌握这个工具。docling项目地址：https://github.com/docling-project/docling?tab=readme-ov-f

2025-09-02 18:50:50 1843 1

原创对于PDF解析，不同工具的对比分析

做这个对比分析，是为了更好地学习RAG文档解析环节。之前盲目地相信AI coding，没了解PDF解析原理，在批量解析PDF构建向量数据库后，通过检索发现并没有得到有效解析。用的工具是MinerU，进行版面分析，后退策略（若是MinerU不可用，现在看来根本没必要）使用PyMuPDF，在解析过程中一直反馈依赖安装问题，也就是magic-pdf一直报错（不存在，即使我已经安装了，但是因为版本原因读取不到），所以全程使用的PyMuPDF。所以痛定思痛，打算认真学习一下PDF的解析工具。

2025-08-18 16:52:34 1249

原创 RAG学习笔记

从之前的实践来看，结构化解析的效果是明显强于常规的文件内容提取的。相对于常规的文件内容提取，结构化解析保留了文件的层级结构以及各个层级的标题信息，可以有效提升文档内容的召回率。常规 RAG 文件解析方案为了尽可能提升结构化解析能力，常规情况下会选择实现基础文件类型的结构化解析，其他文件尽可能转换为基础文件类型。而目前最常见适用于结构化解析的基础类型为 html 和 markdown。比如目前最常见的 pdf 格式，热门开源项目 marker 和 MinerU 都在尝试将其转换为 markdown 格式。

2025-08-17 20:28:56 1065

LTKnt77的博客

原创【零基础强化学习】前置阶段

原创【零基础强化学习】第二阶段：黑盒DQN 开箱

原创【零基础强化学习】第一阶段：基础 DQN

原创收藏夹拯救计划：每周一篇，拒绝吃灰[1] —— 大模型数据标注

原创 Docling学习笔记(含本地部署教程)

原创对于PDF解析，不同工具的对比分析

原创 RAG学习笔记

原创处理结构化数据生成SFT数据（比赛过程记录——自用）

原创微调参数融合

原创微调一个0.5B的edge agent（使用Qwen2.5-0.5B）

手写简单 DQN RL 用于强化学习基础学习

对于财务报告PDF解析，不同工具的对比分析

空空如也