- 博客(12)
- 收藏
- 关注
原创 基于强化学习大模型的本质(马尔科夫决策过程建模)
本文探讨了大语言模型(LLM)解码过程与马尔可夫决策过程(MDP)的对应关系。作者指出,虽然LLM生成依赖于全部历史token,但通过将当前完整token序列定义为状态,仍满足马尔可夫性质。这种建模将LLM解码转化为确定性MDP过程,其中状态转移是token的确定性拼接,策略即模型自身的预测分布。该视角为应用强化学习算法(如PPO)提供了理论基础,并区分了封闭式解码(纯文本生成)和开放式交互(智能体工作流)两种场景。最后强调这种MDP建模是理解LLM强化学习优化的关键。
2025-12-24 15:28:58
582
原创 凸优化系列——First-order method
这篇博客详细介绍了梯度下降法在凸优化中的应用及其数学原理。文章从梯度下降法的基本形式出发,解释了其通过二阶近似寻找最小值点的过程,并讨论了步长选择策略,如回溯线搜索和精确线搜索。接着,文章分析了梯度下降法在Lipschitz光滑条件和强凸情形下的收敛性,并拓展到非凸优化中的表现。此外,文章引入了次梯度的概念,解释了其在非可导凸函数中的作用。通过图示与推导相结合的方式,文章帮助读者深入理解一阶优化方法的核心思想与数学基础,为后续学习优化算法提供了坚实的理论基础。
2025-05-20 15:34:27
936
原创 凸优化系列-对偶问题
本博客主要关注凸优化理论中的对偶问题,从最简单的线性规划的对偶问题开始介绍,然后介绍通用的对偶问题,并且介绍 KKT 条件及其推导过程。最后介绍具体在凸优化理论中应用到的一些对偶问题,包括对偶范数,对偶问题和共轭函数等。如果对你有用的话,欢迎点赞!收藏!关注!**(前置知识:凸优化基础理论,线性代数的知识)**
2025-04-03 15:17:12
1326
原创 【万字长文】基于大模型的数据合成(增强)及标注
由于合成数据目前是一个热门的研究方向,越来越多的研究者开始通过大模型合成数据来丰富训练集,为了能够从一个系统的角度去理解这个方向和目前的研究方法便写了这篇播客,希望能对这个领域感兴趣的同学有帮助!!!
2025-03-05 15:14:24
2158
1
原创 【万字长文】强化学习笔记(Reinforcement Learning,RL)非常详细,初级入门
由于本人的近期研究方向涉及到强化学习,本科时已经学习过了,但是感觉还是有些概念和算法没有学懂学透,所以想重新系统性的学习一下,记录了整个学习过程,而且对当时没有理解不是特别深刻的内容有了一些更加深刻的理解,所以希望把学习的过程记录下来,也帮助其他的初学者能够快速入门强化学习。并且为了加深理解,会涉及一些公式。**欢迎点赞,收藏!**
2024-11-12 11:55:10
4889
1
原创 GraphRAG+Ollama实现本地部署(最全,非常详细,保姆教程)
GraphRAG+Ollama本地部署, GraphRAG Ollama为了找到一种省钱的方式并且能够使用GraphRAG便可以调用Ollama本地部署的开源大模型,但需要修改部分源码,我已经实现过了,给大家避坑,快读部署。如果对你有用的,欢迎点赞、收藏!
2024-07-23 17:40:11
25717
181
原创 微软开源GraphRAG的使用教程(最全,非常详细)
目前微软已经开源了GraphRAG的完整项目代码。对于某一些LLM的下游任务则可以使用GraphRAG去增强自己业务的RAG的表现。项目给出了两种使用方式:1. 在打包好的项目状态下运行,可进行尝试使用。2. 在源码基础上运行,适合为了下游任务的微调时使用。
2024-07-17 15:04:18
56567
156
原创 知识蒸馏的简单理解
知识蒸馏是通过构建一个轻量化的小模型,利用性能更好的大模型的监督信息,来训练这个小模型大模型: Teacher model 小模型:Student modelTeacher model 输出的知识(knowledge) Student model 学习来自Teacher的监督的信息的过程–> Distillation(蒸馏)
2023-12-07 09:40:43
918
原创 RuntimeError: No CUDA GPUs are available问题解决
本地在调试机上跑没问题,但是上传到服务器上正是跑出现问题,出现如下报错。调试机上有4块GPU资源,但是正式提交平台后单卡训练。修改为“0”,”1“ ,问题解决!
2023-11-24 14:02:52
2412
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅