段智华-CSDN博客

原创 Llama模型家族之Stanford NLP ReFT源代码探索（七）pyvene 基本干预示例-2

Llama模型家族之Stanford NLP ReFT源代码探索（七）pyvene 基本干预示例-2

2024-06-11 19:30:00 1682

原创 Generative AI原理本质、技术内核及工程实践之基于Vertex AI的大模型（一）Vertex AI 简介

Vertex AI 是一个机器学习 (ML) 平台，可让您训练和部署机器学习模型和 AI 应用，以及自定义大型语言模型 (LLM)，以在 AI 驱动的应用中使用。Vertex AI 结合了数据工程、数据科学和机器学习工程工作流，使您的团队能够使用通用工具集进行协作，并利用 Google Cloud 的优势扩缩您的应用。Vertex AI 提供了几种模型训练和部署的选项：借助 AutoML，您可以训练表格、图片、文本或视频数据，不需要编写代码，也不需要准备数据分块。

2024-06-11 19:30:00 1100

原创 Generative AI原理本质、技术内核及工程实践之基于Vertex AI的大模型（二）Generative AI on Vertex AI 概览

您可以自定义 Google 基础模型的默认行为，以便在不使用复杂提示的情况下始终生成所需的结果。此自定义过程称为模型调优。模型调优可让您简化提示，从而帮助您降低请求的费用并缩短延迟时间。Vertex AI 还提供模型评估工具，可帮助您评估经过调优的模型的性能。在经过调优的模型可用于生产后，您可以像在标准 MLOps 工作流中一样将其部署到端点并监控性能。

2024-06-11 19:30:00 1075

原创 Generative AI原理本质、技术内核及工程实践之基于Vertex AI的大模型（三）调优模型概览

对基础模型调优可以提高其性能。基础模型是为一般用途训练的，有时不能按预期执行任务。这可能是因为您希望模型执行的任务是专业任务，很难仅通过问题设计来训练模型。在这些情况下，可以使用模型调优来提高模型针对特定任务的性能。当说明不足时，模型调优还可帮助遵循特定的输出要求。本页面简要介绍了模型调优，介绍了 Vertex AI 上可用的调优选项，并可帮助您确定应在何时使用每个调优选项

2024-06-11 19:30:00 1058

原创 Llama模型家族之Stanford NLP ReFT源代码探索（五）Pyvene代码库简介

对模型内部状态的干预是人工智能许多领域的基本操作，包括模型编辑、转向、鲁棒性和可解释性。为了促进这种研究，我们引入了pyrene，这是一个开源Python库，支持对一系列不同PyTorch模块的可定制干预。pyrvene以直观的配置格式支持复杂的干预方案，其干预可以是静态的或包括可训练的参数。

2024-06-09 21:46:51 912

原创 Llama模型家族之Stanford NLP ReFT源代码探索（四）Pyvene论文学习

本文介绍了一个名为pyvene的Python库，支持干预研究在神经模型上的应用。支持自定义干预类型和不同类型的模型架构。支持复杂的干预方案，并且可以共享干预后的模型。可以通过在线模型中心（如HuggingFace）与他人分享干预后的模型。

2024-06-09 20:59:08 1606

原创 Llama模型家族之Stanford NLP ReFT源代码探索（三）reft_model.py代码解析

pyreft-main\pyreft\reft_trainer.py 代码解析

2024-06-09 15:56:08 984

原创 Llama模型家族之Stanford NLP ReFT源代码探索（二）Intervention Layers层

定义了一系列基于PyTorch框架的神经网络干预层（Intervention Layers），用于对嵌入向量进行变换

2024-06-09 11:10:32 1135

原创 Llama模型家族之Stanford NLP ReFT源代码探索（一）数据预干预

代码定义了多个类和函数，用于处理自然语言处理（NLP）任务中的干预（intervention）机制

2024-06-09 09:52:11 1458

原创 Llama模型家族之使用 ReFT技术对 Llama-3 进行微调（四） ReFT 微调训练及模型推理

Llama模型家族之使用 ReFT技术对 Llama-3 进行微调（四） ReFT 微调训练及模型推理

2024-06-08 21:49:00 703

原创 Llama模型家族之使用 ReFT技术对 Llama-3 进行微调（三）为 ReFT 微调准备模型及数据集

为 ReFT 微调准备模型及数据集。为微调准备数据集。使用了OpenHermes-2.5数据集的1万条子集。由于REFT训练器期望数据以特定格式提供，将使用pyreft.make_last_position_supervised_data_module()来准备数据。

2024-06-08 20:50:16 1199 2

原创 Llama模型家族之使用 ReFT技术对 Llama-3 进行微调（二）PyReFT简介

PyReFT是一个表征微调 (ReFT) 库，支持通过可训练的干预来调整内部语言模型表征。Pyreft 具有更少的微调参数和更强大的性能，可以提高微调效率，降低微调成本，同时为研究调整参数的可解释性打开大门。使用 ReFT 对 HuggingFace 上的任何预训练 LM 进行微调通过配置设置 ReFT 超参数轻松将微调结果分享到 HuggingFace。

2024-06-08 20:27:06 728

原创 Llama模型家族之使用 ReFT技术对 Llama-3 进行微调（一）

参数高效微调 (PEFT) 方法旨在通过仅涉及少数参数的权重更新来调整大型语言模型。尽管如此，之前关于可解释性的大多数研究都表明，表征包含大量语义信息，这意味着编辑表征可能是一种更有效的选择。这就是表征微调 (Representation Finetuning ，ReFT) 方法的用武之地。事实上，LoReFT（ReFT 系列的一部分）是现有 PEFT 的直接替代品，并且学习的干预措施比之前最先进的 PEFT 的参数效率高10 倍至 50 倍。

2024-06-08 19:46:27 914

原创 Llama模型家族之拒绝抽样(Rejection Sampling)（九）强化学习之Rejection Sampling

拒绝采样技术提供了一种有效的方法来提升AI模型的生成能力。通过精心设计的迭代过程和参数调整，可以使模型在生成高质量答案的同时，保持答案的多样性和创新性。

2024-06-08 19:10:10 1515

原创 Llama模型家族之拒绝抽样(Rejection Sampling)（八）代码实现

Llama模型家族之拒绝抽样(Rejection Sampling)（八）代码实现

2024-06-08 12:13:47 221

原创 Llama模型家族之拒绝抽样(Rejection Sampling)（七）优化拒绝抽样：选择高斯分布以减少样本拒绝

本文探讨了在拒绝抽样过程中如何通过选择更合适的提议分布函数来减少样本的拒绝率。文章指出，选择一个能够覆盖目标函数的提议分布是关键，尤其是在考虑缩放后的目标函数。通过引入高斯分布作为提议函数的例子，文章展示了如何有效地减少拒绝区域，从而提高抽样效率。图表直观地展示了使用新提议分布后拒绝域的显著减小，说明了选择合适提议分布的重要性。

2024-06-08 10:44:32 1191

原创 Llama模型家族之拒绝抽样(Rejection Sampling)（六）拒绝抽样中的蒙特卡罗算法：重复过程与接受标准

本文概述了在拒绝抽样中使用蒙特卡罗算法的重复过程，并介绍了如何通过标准均匀分布来确定样本的接受标准。文章详细描述了当样本被拒绝时，需要重复的步骤：从提议函数中获取新样本、从均匀分布中获取随机数u、检查u与f(x)的关系来决定接受或拒绝，并重复这一过程。此外，文章还提供了一个使用0到1的标准均匀分布的接受标准的替代公式，并展示了如果多次重复该算法，最终得到的分布图。通过这些内容，文章展示了如何利用蒙特卡罗方法在拒绝抽样中实现有效的样本选择和评估。

2024-06-08 10:35:05 613

原创 Llama模型家族之拒绝抽样(Rejection Sampling)（五）蒙特卡罗算法在拒绝抽样中：均匀分布与样本接受标准

本文深入探讨了在拒绝抽样中如何使用蒙特卡罗算法来确定接受或拒绝样本X的随机数字。通过引入一个均匀分布，文章解释了随机数生成的机制及其对评估线的影响。文章进一步通过图表展示了接受和拒绝事件，并用数学公式明确了接受标准。通过这种方法，文章揭示了蒙特卡罗算法在拒绝抽样中的应用，以及如何利用随机性来实现有效的样本选择。

2024-06-08 10:22:53 1050

原创 Llama模型家族之拒绝抽样(Rejection Sampling)（四）蒙特卡罗方法在拒绝抽样中的应用：评估线与样本接受标准

本文讨论了在拒绝抽样中如何利用蒙特卡罗的概念来确定样本的接受与否。文章首先介绍了评估线的概念和如何使用它来决定样本X的接受标准。通过展示一个旋转的可视化图像，文章进一步阐释了评估线与提议函数g(x)之间的关系，还探讨了概率分布如何影响样本接受的概率，并提出了一个关键问题：如何确保随机数落在评估线上，从而公平地反映样本发生的概率。

2024-06-08 10:05:24 694

原创 Llama模型家族之拒绝抽样(Rejection Sampling)（三）确定缩放常数以优化拒绝抽样方法

本文探讨了在拒绝抽样方法中如何确定缩放常数，以适应一维目标函数的采样。通过图像展示，直观地理解了提议函数的采样过程，以及如何使用评估线来确保样本符合目标分布。文章介绍了评估标准和接受/拒绝样本的决策过程，解释了如何通过评估线上的数字来决定样本的接受与否。

2024-06-08 09:53:48 675

原创 Llama模型家族之拒绝抽样(Rejection Sampling)（二）均匀分布简介

1、Llama开源模型家族大模型技术、工具和多模态详解：学员将深入了解Meta Llama 3的创新之处，比如其在语言模型技术上的突破，并学习到如何在Llama 3中构建trust and safety AI。8、Llama 3中的DPO原理、算法、组件及具体实现及算法进阶：学习Llama 3中结合使用PPO和DPO算法，剖析DPO的原理和工作机制，详细解析DPO中的关键算法组件，并通过综合项目八从零开始动手实现和测试DPO算法，同时课程将解密DPO进阶技术Iterative DPO及IPO算法。

2024-06-07 19:30:00 1344

原创 Llama模型家族之拒绝抽样(Rejection Sampling)(一)

拒绝抽样是一种蒙特卡洛算法，借助代理分布从复杂（“难以抽样”）分布中抽样数据。什么是蒙特卡罗？如果一种方法/算法使用随机数来解决问题，则将其归类为蒙特卡罗方法。在拒绝采样的背景下，蒙特卡洛方法（也就是随机性）帮助在算法中实现一个标准。

2024-06-06 21:00:13 868

原创 Llama模型家族之RLAIF 基于 AI 反馈的强化学习（十） RLAIF 代码实战

基于 LlaMA 3 + LangGraph 在windows本地部署大模型（一）基于 LlaMA 3 + LangGraph 在windows本地部署大模型（二）基于 LlaMA 3 + LangGraph 在windows本地部署大模型（三）基于 LlaMA 3 + LangGraph 在windows本地部署大模型（四）基于 LlaMA 3 + LangGraph 在windows本地部署大模型（五）基于 LlaMA 3 + LangGraph 在windows本地部署大模型

2024-06-05 20:00:00 1043

原创 Llama模型家族之RLAIF 基于 AI 反馈的强化学习（八） RLAIF 代码实战

基于 LlaMA 3 + LangGraph 在windows本地部署大模型（一）基于 LlaMA 3 + LangGraph 在windows本地部署大模型（二）基于 LlaMA 3 + LangGraph 在windows本地部署大模型（三）基于 LlaMA 3 + LangGraph 在windows本地部署大模型（四）基于 LlaMA 3 + LangGraph 在windows本地部署大模型（五）基于 LlaMA 3 + LangGraph 在windows本地部署大模型

2024-06-04 19:30:00 1018

原创 Llama模型家族之RLAIF 基于 AI 反馈的强化学习（九） RLAIF 代码实战

基于 LlaMA 3 + LangGraph 在windows本地部署大模型（一）基于 LlaMA 3 + LangGraph 在windows本地部署大模型（二）基于 LlaMA 3 + LangGraph 在windows本地部署大模型（三）基于 LlaMA 3 + LangGraph 在windows本地部署大模型（四）基于 LlaMA 3 + LangGraph 在windows本地部署大模型（五）基于 LlaMA 3 + LangGraph 在windows本地部署大模型

2024-06-04 19:30:00 824 1

原创 Llama模型家族之RLAIF 基于 AI 反馈的强化学习（七） RLAIF 代码实战

i = start # 初始化计数器i为起始值start。while True: # 创建一个无限循环。yield i # 产生当前的i值。i += step # i增加step。

2024-06-02 09:50:53 827

原创 Llama模型家族之RLAIF 基于 AI 反馈的强化学习（六） RLAIF 代码实战

这篇博客文章介绍了一个创新的实验，目的是微调EleutherAI的Pythia 160M语言模型。这个过程使用了一种新颖的方法，即基于一个已经针对指令进行过微调的语言模型（John David Pressman对Mistral 7B的微调）来派生出一个零样本奖励模型。

2024-05-31 20:00:00 882

原创 Llama模型家族之RLAIF 基于 AI 反馈的强化学习（一）

强化学习是一种广泛使用的技术，用于训练智能代理在其环境中做出有效决策。在大型语言模型 (LLM) 领域，这通常涉及通过人工反馈来指导学习过程。然而，依靠人类提供反馈可能成本高昂、耗时长，而且有时还不一致。人工智能反馈强化学习 (RLAIF)提供了一种利用现有人工智能模型功能的替代解决方案。

2024-05-31 19:30:00 1625

原创 Llama模型家族之RLAIF 基于 AI 反馈的强化学习（二）

基于 AI 反馈的强化学习 (RLAIF) 是一种机器学习技术，其中 AI 模型在强化学习过程中向其他 AI 模型提供反馈。RLAIF 并不单纯依赖人类输入，而是利用现有 AI 系统（例如大型语言模型）的功能来评估动作并指导其他代理的学习。这种 AI 反馈可以采取多种形式，包括生成奖励、对响应进行排名或直接提出改进建议。通过自动化反馈循环，RLAIF 有可能简化训练、降低成本并提高各种 AI 系统（包括大型语言模型）的性能。

2024-05-31 19:30:00 992

原创 Llama模型家族之RLAIF 基于 AI 反馈的强化学习（三） RLAIF 的工作原理

RLAIF 的工作原理现在我们已经确定了 RLAIF 的核心概念及其与 RLHF 的区别，让我们深入了解实施此方法所涉及的实际步骤。RLAIF 流程通常由四个关键阶段组成，每个阶段都在使 AI 模型能够从 AI 生成的反馈中学习方面发挥着至关重要的作用。

2024-05-31 19:30:00 1394

原创 Llama模型家族之RLAIF 基于 AI 反馈的强化学习（四）RLAIF 优势

1、Llama开源模型家族大模型技术、工具和多模态详解：学员将深入了解Meta Llama 3的创新之处，比如其在语言模型技术上的突破，并学习到如何在Llama 3中构建trust and safety AI。8、Llama 3中的DPO原理、算法、组件及具体实现及算法进阶

2024-05-31 19:30:00 730

原创 Llama模型家族之RLAIF 基于 AI 反馈的强化学习（五）

RLAIF 挑战虽然 RLAIF 取得了令人印象深刻的成果，但它也带来了必须解决的新挑战：与人类价值观相一致尽管自然语言“构成”比单个人类标签更透明，但 LLM 预训练仍然是一个“黑匣子”。因此，确保反馈模型与人类价值观和偏好相一致是一项关键挑战，因为反馈模型中的不一致或偏差可能会导致代理产生意想不到的后果或次优行为。因此，为了降低这种风险，人工智能反馈可以补充人类监督，而不是完全取代它。这种双重方法可以帮助确保模型不会随着时间的推移偏离人类偏好的行为，从而与人类价值观保持一致。

2024-05-31 19:30:00 845

原创 Llama模型家族训练奖励模型Reward Model技术及代码实战（三）使用 TRL 训练奖励模型

使用TRL训练奖励模型

2024-05-28 20:00:00 1764

原创 Llama模型家族之使用 Supervised Fine-Tuning（SFT）微调预训练Llama 3 语言模型（十）使用 LoRA 微调常见问题答疑

1、Llama开源模型家族大模型技术、工具和多模态详解：学员将深入了解Meta Llama 3的创新之处，比如其在语言模型技术上的突破，并学习到如何在Llama 3中构建trust and safety AI。8、Llama 3中的DPO原理、算法、组件及具体实现及算法进阶：学习Llama 3中结合使用PPO和DPO算法，剖析DPO的原理和工作机制，详细解析DPO中的关键算法组件，并通过综合项目八从零开始动手实现和测试DPO算法，同时课程将解密DPO进阶技术Iterative DPO及IPO算法。

2024-05-28 19:30:00 1205

原创 Llama模型家族训练奖励模型Reward Model技术及代码实战（一）

1、Llama开源模型家族大模型技术、工具和多模态详解：学员将深入了解Meta Llama 3的创新之处，比如其在语言模型技术上的突破，并学习到如何在Llama 3中构建trust and safety AI。8、Llama 3中的DPO原理、算法、组件及具体实现及算法进阶：学习Llama 3中结合使用PPO和DPO算法，剖析DPO的原理和工作机制，详细解析DPO中的关键算法组件，并通过综合项目八从零开始动手实现和测试DPO算法，同时课程将解密DPO进阶技术Iterative DPO及IPO算法。

2024-05-28 19:30:00 2365

原创 Llama模型家族训练奖励模型Reward Model技术及代码实战（二）从用户反馈构建比较数据集

8、Llama 3中的DPO原理、算法、组件及具体实现及算法进阶：学习Llama 3中结合使用PPO和DPO算法，剖析DPO的原理和工作机制，详细解析DPO中的关键算法组件，并通过综合项目八从零开始动手实现和测试DPO算法，同时课程将解密DPO进阶技术Iterative DPO及IPO算法。通过项目二逐行剖析Llama 3的源码，加深对技术的理解。整个脚本的目的是处理一个包含问题、答案和反馈的数据集，通过分组、排序、选择和筛选，最终生成一个新的数据集，其中包含每个问题的最佳答案和最差答案，以及它们的分数。

2024-05-28 19:30:00 2220

原创 Llama模型家族之使用 Supervised Fine-Tuning（SFT）微调预训练Llama 3 语言模型（九）使用 LoRA 微调常见问题答疑

1、Llama开源模型家族大模型技术、工具和多模态详解：学员将深入了解Meta Llama 3的创新之处，比如其在语言模型技术上的突破，并学习到如何在Llama 3中构建trust and safety AI。8、Llama 3中的DPO原理、算法、组件及具体实现及算法进阶：学习Llama 3中结合使用PPO和DPO算法，剖析DPO的原理和工作机制，详细解析DPO中的关键算法组件，并通过综合项目八从零开始动手实现和测试DPO算法，同时课程将解密DPO进阶技术Iterative DPO及IPO算法。

2024-05-27 20:30:00 1208

原创 Llama模型家族之使用 Supervised Fine-Tuning（SFT）微调预训练Llama 3 语言模型（八）使用 LoRA 微调 LLM 的实用技巧

1、Llama开源模型家族大模型技术、工具和多模态详解：学员将深入了解Meta Llama 3的创新之处，比如其在语言模型技术上的突破，并学习到如何在Llama 3中构建trust and safety AI。8、Llama 3中的DPO原理、算法、组件及具体实现及算法进阶：学习Llama 3中结合使用PPO和DPO算法，剖析DPO的原理和工作机制，详细解析DPO中的关键算法组件，并通过综合项目八从零开始动手实现和测试DPO算法，同时课程将解密DPO进阶技术Iterative DPO及IPO算法。

2024-05-27 20:15:00 1428

原创 Llama模型家族之使用 Supervised Fine-Tuning（SFT）微调预训练Llama 3 语言模型（七）使用 LoRA 微调 LLM 的实用技巧

1、Llama开源模型家族大模型技术、工具和多模态详解：学员将深入了解Meta Llama 3的创新之处，比如其在语言模型技术上的突破，并学习到如何在Llama 3中构建trust and safety AI。8、Llama 3中的DPO原理、算法、组件及具体实现及算法进阶：学习Llama 3中结合使用PPO和DPO算法，剖析DPO的原理和工作机制，详细解析DPO中的关键算法组件，并通过综合项目八从零开始动手实现和测试DPO算法，同时课程将解密DPO进阶技术Iterative DPO及IPO算法。

2024-05-27 19:45:00 888

原创 Llama模型家族之使用 Supervised Fine-Tuning（SFT）微调预训练Llama 3 语言模型（六）Llama 3 已训练的大模型合并LoRA权重参数

1、Llama开源模型家族大模型技术、工具和多模态详解：学员将深入了解Meta Llama 3的创新之处，比如其在语言模型技术上的突破，并学习到如何在Llama 3中构建trust and safety AI。8、Llama 3中的DPO原理、算法、组件及具体实现及算法进阶：学习Llama 3中结合使用PPO和DPO算法，剖析DPO的原理和工作机制，详细解析DPO中的关键算法组件，并通过综合项目八从零开始动手实现和测试DPO算法，同时课程将解密DPO进阶技术Iterative DPO及IPO算法。

2024-05-24 20:15:00 479

Rasa对话机器人Debugging项目实战之电商零售、银行金融、保险行业、教育领域对话机器人第121课-第128课学习笔记

Rasa对话机器人连载十二 第124课：Rasa对话机器人Debugging项目实战之保险行业调试全程实战解密（三）.rar

Rasa对话机器人连载十九 第126课：Rasa对话机器人Debugging项目实战之教育领域项目调试 解密（二）.pdf

Rasa对话机器人连载十三 第124课：Rasa对话机器人Debugging项目实战之保险行业调试全程实战解密（四）.pdf

Rasa对话机器人连载七 第122课：Rasa对话机器人Debugging项目实战之银行金融对话机器人全生命周期调试实战-（三）

Rasa对话机器人连载四 第121课：Rasa对话机器人Debugging项目实战之电商零售对话机器人运行流程调试全程演示-4

Rasa对话机器人连载二 第121课：Rasa对话机器人Debugging项目实战之电商零售对话机器人运行流程调试全程演示-2

Rasa对话机器人连载一 第121课：Rasa对话机器人Debugging项目实战之电商零售对话机器人运行流程调试全程演示-1

第123课：Rasa对话机器人Debugging项目实战之图解银行金融案例架构视角下的Training及Reference全生命

第122课：Rasa对话机器人Debugging项目实战之银行金融对话机器人全生命周期调试实战

第121课：Rasa对话机器人Debugging项目实战之电商零售对话机器人运行流程调试全程演示

第121课：Rasa对话机器人Debugging项目实战之电商零售对话机器人运行流程调试全程演示-4

第121课：Rasa对话机器人Debugging项目实战之电商零售对话机器人运行流程调试全程演示-1

fr-en.tgz https://www.statmt.org/ europarl/v7/fr-en.tgz

europarl-v7.fr-en.en

yolo_weights.rar

tensorflow-1.15.0-cp36-cp36m-win_amd64.whl

五节课从零起步(无需数学和Python基础)编码实现AI人工智能框架电子书V1

空空如也

Rasa对话机器人连载十二第124课：Rasa对话机器人Debugging项目实战之保险行业调试全程实战解密（三）.rar

Rasa对话机器人连载十九第126课：Rasa对话机器人Debugging项目实战之教育领域项目调试解密（二）.pdf

Rasa对话机器人连载十三第124课：Rasa对话机器人Debugging项目实战之保险行业调试全程实战解密（四）.pdf

Rasa对话机器人连载七第122课：Rasa对话机器人Debugging项目实战之银行金融对话机器人全生命周期调试实战-（三）

Rasa对话机器人连载四第121课：Rasa对话机器人Debugging项目实战之电商零售对话机器人运行流程调试全程演示-4

Rasa对话机器人连载二第121课：Rasa对话机器人Debugging项目实战之电商零售对话机器人运行流程调试全程演示-2

Rasa对话机器人连载一第121课：Rasa对话机器人Debugging项目实战之电商零售对话机器人运行流程调试全程演示-1