CharlesChenMS-CSDN博客

原创基于策略梯度的算法

最大熵强化学习认为，即使我们目前有了成熟的随机性策略，即 Actor-Critic 一类的算法，但是还是没有达到最优的随机。因此，它引入了一个信息熵的概念，在最大化累积奖励的同时最大化策略的熵，使得策略更加鲁棒，从而达到最优的随机性策略。本质上 PPO 算法就是在 Actor-Critic 算法的基础上增加了重要性采样的约束而已，从而确保每次的策略梯度估计都不会过分偏离当前的策略，也就是减少了策略梯度估计的方差，从而提高算法的稳定性和收敛性。采用了一种更优的蒙特卡洛采样方法来进行策略梯度更新。

2024-07-04 23:03:58 391

原创 Actor-Critic算法

我们再仔细分析一下两者高方差的根本来源，策略梯度算法是因为直接对策略参数化，相当于既要利用策略去与环境交互采样，又要利用采样去估计策略梯度，而基于价值的算法也是需要与环境交互采样来估计值函数的，因此也会有高方差的问题。而结合之后呢，Actor 部分还是负责估计策略梯度和采样，但 Critic 即原来的值函数部分就不需要采样而只负责估计值函数了，并且由于它估计的值函数指的是策略函数的值，相当于带来了一个更稳定的估计，来指导 Actor 的更新，反而能够缓解策略梯度估计带来的方差。

2024-07-01 23:38:01 516

原创 LLM应用

更像是上个应用的具体实例，是一个人情知识助手，可以看出相比大模型微调的前提下，RAG确实是低成本实现特定领域应用的好技术。这个应用主要是利用RAG技术构建个人专属知识库，用于处理特定知识领域的问题。

2024-06-30 23:56:52 312

原创 DQN算法

参考了神经网络的训练模式，即数据是从数据集中随机采样的（符合独立同分布），采取了将智能体和环境交互产生的样本先存储起来，然后通过采样的方式选取一批样本用来训练神经网络，这样能够保证loss的收敛更稳定和更快。尽管神经网络和 Q表都可以用来近似动作价值函数，但是它们的形式是不一样的，Q表是一个二维表格，而神经网络是一个实实在在的函数。其实还是为了辅助loss的收敛，我理解样本池里的样本并不够多，所以为了避免相邻采样关联性太强，所以需要目标网络的参数保持一定时间不变来维持收敛的稳定性。

2024-06-28 23:39:49 210

原创系统评估和优化

对于LLM应用的评估和优化传统思路就是：初期在小样本集上开展验证，人工设计的评估标准对构建的prompt进行打分，收集bad case并进一步对prompt进行优化；等prompt稳定后，在大批量数据集上再构建自动化的评估流程。这部分主体就是将大模型直接回答一个问题拆分成细分步骤，这样的话可以减少prompt里各种语义耦合增加的难度。这部分就是对知识库的检索进行优化，包括优化query和知识库里的向量，以及两者之间的匹配方法。里面比较独特的就是大模型评估，因为需要一个能力比被评估模型更强的模型来执行。

2024-06-28 16:26:12 214

原创构建RAG应用

可以看出在知识库的加持下，可以使大模型的回答更佳稳定并且符合预期。基于之前构建的数据库，结合大模型测试知识库在问答中的作用。

2024-06-27 00:48:35 207

原创搭建知识库

搭建知识库，首先是要将文字、图片和视频等等映射到向量空间，这些实数向量可以被计算机更好地理解和处理。嵌入背后的主要想法是，相似或相关的对象在嵌入空间中的距离应该很近。这也是视觉领域无监督模型所采用的思想。继而将这些向量存入到向量数据库，方便后面的检索。

2024-06-25 01:02:12 394

原创强化学习和深度学习

从强化学习和深度学习差别上看：强化学习是在交互中产生样本的，是一个产生样本、算法更新、再次产生样本、再次算法更新的动态循环训练过程；深度学习是一个准备样本、算法更新的静态训练过程。换句话说，预测主要是告诉我们当前状态下采取什么动作比较好，而控制则是按照某种方式决策。就好比军师与主公的关系，军师提供他认为最佳的策略，而主公则决定是否采纳这个策略。这本质上还是跟要解决的问题不同有关，强化学习解决的是序列决策问题，而深度学习解决的是“打标签”问题。强化学习的问题可以拆分成两类问题，即预测和控制。

2024-06-24 20:32:12 192

原创强化学习预测和控制

具体说来，有模型强化学习尝试先学习一个环境模型，它可以是环境的动态（例如，给定一个状态和一个动作，预测下一个状态）或奖励（给定一个状态和一个动作，预测奖励），即前面小节所讲的状态转移概率和奖励函数。而异策略通常来说更加高效，但是需要让获取样本的策略和更新的策略具备一定的分布匹配条件，以避免偏差。前面提到很多经典的强化学习算法都是免模型的，换句话说在这种情况下环境的状态转移概率是未知的，这种情况下会去近似环境的状态价值函数，这其实跟状态转移概率是等价的，我们把这个过程称为。

2024-06-23 00:06:20 1532

原创 LLM API应用

对于具有较强自然语言理解、生成能力，能够实现多样化任务处理的大语言模型（LLM）来说，一个好的 Prompt 设计极大地决定了其能力的上限与下限。分隔符就像是 Prompt 中的墙，将不同的指令、上下文、输入隔开，避免意外的混淆。具体来说，LangChain 框架可以实现数据感知和环境互动，也就是说，它能够让语言模型与其他数据来源连接，并且允许语言模型与其所处的环境进行互动。这块不涉及具体的大模型开发技术，纯粹是大模型的使用方法，但是对于如何最大化发挥大模型的能力非常重要。

2024-06-22 20:38:12 828

原创强化学习概念

动态规划其实并不是强化学习领域中独有的算法，它在数学、管理科学、经济学和生物信息学等其他领域都有广泛的应用。动态规划具体指的是在某些复杂问题中，将问题转化为若干个子问题，并在求解每个子问题的过程中保存已经求解的结果，以便后续使用。智能体每一时刻都会接收环境的状态，并执行动作，进而接收到环境反馈的奖励信号和下一时刻的状态。强化学习其实就是将人类/动物在犯错中成长的试错学习方法（吃一堑长一智）用于训练智能体。即智能体做出决策（动作），身边环境的变化称之为状态转移，目标的反馈称之为奖励。（a）多智能体强化学习。

2024-06-20 00:11:46 585

原创大模型简介

大语言模型（LLM，Large Language Model），也称大型语言模型，是一种旨在理解和生成人类语言的人工智能模型。尽管这些大型语言模型与小型语言模型（例如3.3 亿参数的BERT和15 亿参数的GPT-2）使用相似的架构和预训练任务，但它们展现出截然不同的能力，尤其在解决复杂任务时表现出了惊人的潜力，这被称为“涌现能力。

2024-06-19 23:09:48 1126

原创第七讲 OpenCompass大模型评测

笔记大模型评测的意义首先，研究评测对于我们全面了解大型语言模型的优势和限制至关重要。尽管许多研究表明大型语言模型在多个通用任务上已经达到或超越了人类水平，但仍然存在质疑，即这些模型的能力是否只是对训练数据的记忆而非真正的理解。例如，即使只提供LeetCode题目编号而不提供具体信息，大型语言模型也能够正确输出答案，这暗示着训练数据可能存在污染现象。其次，研究评测有助于指导和改进人类与大型语言模型之间的协同交互。考虑到大型语言模型的最终服务对象是人类，为了更好地设计人机交互的新范式，我们有必要全面

2024-04-24 15:24:32 1064

原创第六讲 Lagent & AgentLego 智能体应用搭建

这种框架的设计目的是为了简化和提高基于这种模型的代理的开发效率。LLM模型是一种强大的工具，可以用于模拟和管理复杂的系统，而Lagent就是这种模型的实现。2、AgentLego 所实现的目标检测工具是基于 mmdet (MMDetection) 算法库中的 RTMDet-Large 模型，因此我们首先安装 mim，然后通过 mim 工具来安装 mmdet。AgentLego 通过提供一个易于扩展、易于使用、易于部署的工具集合，让大家能够轻松地在各种 Agent 系统中发挥想象力，赋予大模型更强大的能力。

2024-04-22 07:18:06 487

原创第五讲 XTuner 微调 LLM

3. XTuner支持多款开源大模型，如书生、Llama、阿里的通义千问、百川大模型和清华的chatGLM等。原始数据--标准格式数据--添加对话模板--Tonkenized数据--添加label--开始训练。1、Lora：在原本的linear旁新增一个支路，包含两个连续的小linear，叫做Adapter。1、为什么要微调：LLM的下游应用，对齐特殊领域。2、QLora：进一步在加载模型时进行量化。3、查找可用于1.8b模型微调用的配置文件。2、创建用于微调的数据集。

2024-04-20 01:07:35 383

原创第四讲 LMDeploy量化部署进阶

KV8量化是指将逐 Token（Decoding）生成过程中的上下文 K 和 V 中间结果进行 INT8 量化（计算时再反量化），以降低生成过程中的显存占用。W4A16 量化，将 FP16 的模型权重量化为 INT4，Kernel 计算时，访存量直接降为 FP16 模型的 1/4，大幅降低了访存成本。常见的 LLM 模型由于 Decoder Only 架构的特性，实际推理时大多数的时间都消耗在了逐 Token 生成阶段（Decoding 阶段），是典型的访存密集型场景。新建Python源代码文件。

2024-04-18 07:50:08 1285

原创第四讲 LMDeploy量化部署

利用LMDploy部署简单方便，而且推理速度比原生Transformer确实在推理速度上有优势。2、大模型部署方法：模型剪枝；量化（降低访存量，牺牲一定精度）1、大模型部署面临的挑战：计算量巨大；3、LMDploy功能：模型高效推理；

2024-04-15 00:01:10 227

原创第三讲 RAG笔记

解决 LLMs 在处理知识密集型任务时可能遇到的挑战, 如幻觉、知识过时和缺乏透明、可追溯的推理过程等。提供更准确的回答、降低推理成本、实现外部记忆。RAG范式：Naive RAG；Advanced RAG（检索前后增强）；Modular RAG（各种优化技术模块化）RAG（Retrieval Augmented Generation）技术，通过检索与用户输入相关的信息片段，并结合。RAG优化：嵌入优化；RAG 能够让基础模型实现非参数知识更新，无需训练就可以掌握新领域的知识。来生成更准确、更丰富的回答。

2024-04-14 10:00:36 229

cms90822的博客