微调和推理plato的一些经验

最新推荐文章于 2025-05-10 19:01:11 发布

allen_zhe0316

最新推荐文章于 2025-05-10 19:01:11 发布

阅读量121

点赞数

文章标签：自然语言处理

本文链接：https://blog.csdn.net/m0_61913233/article/details/132662900

版权

1. 数据：充分利用数据，在数据处理的工作中将一段对话（ABABAB）切分成A B ABA B ABABA B的形式。

2.将数据做成batch的形式，共有3587条数据，将数据按照token ids进行升序排序，不断维护max_len,确保max_len * batch 的数量小于batch_size 。

3.模型结构

4. 为了避免生成的token为mask或者unk_token，将对应的索引的数值设置很小。

5. 对生成话的长度进行一定限制，我们的场景是chitchat，所以我们的min_len设置的很小0，如果是做别的事情，在没有到达min_len，eos的logits会相对更低。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

allen_zhe0316

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

从零开始大模型开发与微调：最强的中文大模型—清华大学ChatGLM介绍

AI天才研究院

06-02

552

从零开始大模型开发与微调：最强的中文大模型—清华大学ChatGLM介绍 1.背景介绍 1.1 人工智能大模型的兴起近年来,人工智能领域取得了长足的进步,其中大模型的出现引领了这一浪潮。大模型指的是拥

预训练模型最新综述：过去、现在和未来

Paper weekly

06-16

2753

©PaperWeekly 原创 · 作者 |王馨月学校 |四川大学本科生研究方向|自然语言处理BERT、GPT 等大规模预训练模型（PTM）最近取得了巨大成功，成为人工智能领域的里...

1 条评论您还未登录，请先登录后发表或查看评论

解析大型语言模型的训练、微调和推理的运行时性能

liangwqi的博客

11-22

4002

这篇论文是截至目前为数不多的介绍大模型训练配套环境比对的论文，对于想要入门大模型训练同学是个不错的入门资料。比较了不同尺寸模型（比较常用的7、13、70b），在不同型号gpu、训练框架、推理框架数据。结合自己实际工作需要和论文给出的运行时数据分析，总结了下面几条： 1.二次预训练最低硬件配置，如果想要自己做简单二次预训练（7、13、70B参数）最小8卡80g显存A100 2.对于小规模sft对考虑PEFT做训练就可以，freezen fintune方法需要硬件还是较大 3.FlashAttention对向

百度发布首个大规模隐变量对话模型PLATO

PaddlePaddle

04-13

2333

百度于去年10月公布的基于飞桨开源深度学习平台开发的通用领域对话生成预训练模型PLATO，相关论文最近已正式被ACL 2020接收。PLATO是业界首个基于隐空间（Latent Spa...

ACL 2022 | PLATO-LTM：具有长期记忆机制的对话生成框架

Paper weekly

05-19

1785

©作者 |张轶博学校 |北京邮电大学AI院研究方向 |对话系统大多数开放域对话模型在长期人机对话中往往表现不佳。可能的原因是这些模型缺乏理解和记忆长期对话历史信息的能力。为了解决这个问题，本文提出了一个新的长期记忆对话（LeMon）任务，然后构建了一个新的对话数据集 DuLeMon 和一个具有长期记忆（LTM）机制的对话生成框架 PLATO-LTM，这种 LTM 机...

实现基于百度plato-mini的中文闲聊API服务

weixin_28949937的博客

11-22

1191

本文还有配套的精品资源，点击获取简介：本项目聚焦于构建一个基于百度 Plato-mini 的中文闲聊 API 服务，适用于计算机科学专业学生的毕业设计或课程作业。通过使用 FastAPI 框架，学生可以深入理解并实践 API 设计、开发和部署流程，掌握自然语言处理模型的集成，最终实现一个高效的中文闲聊对话系统。 1. 百度 Plato-mini 模型介绍 ...

预训练时代微调新范式，高性能加速2800%，NLPer赶紧看过来！

PaddlePaddle

10-12

249

导读PaddleNLP 是兼具科研学习和产业实践能力的 Python NLP 工具包，提供中文领域丰富的预训练模型和部署工具，被高校、企业开发者广泛应用。近日，PaddleNLP v2.1...

万字解读：预训练模型最新综述！

Datawhale

06-30

6485

↑↑↑关注后"星标"Datawhale每日干货&每月组队学习，不错过Datawhale学术作者：太子长琴，Datawhale意向成员如何在有限数据下训练出高...

任务型对话系统预训练最新研究进展

Paper weekly

01-14

2234

©PaperWeekly 原创 ·作者 |褚维芜单位 |北京邮电大学硕士生研究方向 |自然语言处理引言近年来，随着预训练模型的发展，对话领域的研究也逐渐开始关注基于预训练的端到端对...

如何实现一个意图识别模型

无极低码

04-16

1033

在对话过程中识别用户需求是构建智能对话系统（如聊天机器人、虚拟助手等）的核心任务之一。为了实现这一目标，意图识别（Intent Recognition）和槽位填充（Slot Filling）通常是两个关键步骤。对话管理模块负责维护对话状态，并根据用户意图和历史对话记录决定下一步的动作。意图识别和槽位填充可以看作是相关的任务，因此可以通过多任务学习的方式同时优化这两个任务。要实现高质量的意图识别，需要准备高质量的训练数据。意图识别的目的是理解用户的意图或目的。两者结合可以更好地理解用户的需求。

硬核讲习，10名“悟道”核心成员，剖析大模型

BAAIBeijing的博客

05-28

3477

近年来人工智能的发展，已经从“大炼模型”逐步迈向了“炼大模型”的阶段，通过设计先进的算法，整合尽可能多的数据，汇聚大量算力，集约化地训练大模型，供大量企业使用，这是必然趋势。——黄铁军，智...

BERT预训练

weixin_73557167的博客

05-06

1054

BERT预训练

在自然语言处理任务中，像 BERT 这样的模型会在输入前自动加上一些特殊token

陈开心的博客

05-09

312

BERT 是一个自然语言理解模型。你可以把它想象成一个超级聪明的“语言理解机器人”。理解这句话的意思；告诉你哪个词是实体（人名、地名）；判断两个句子是不是一个意思，等等。Token 就是把一句话拆成一个个小块的结果。我爱北京天安门模型不能直接理解汉字或词语，所以会先用分词器（Tokenizer）把它切成 token["我", "爱", "北京", "天", "安", "门"]这些 token 就是模型处理的最小单位。举个例子，我们想让模型识别句子中的地名：我爱北京天安门。

多模态大语言模型arxiv论文略读（六十三）

Jamence的博客

05-07

1087

为了改进这一点，研究团队构建了一个包含人类对英语-印地语（en-hi）混合编码文本可接受性判断的数据集Cline，旨在区分自然的混合编码文本，并实现质量控制的混合编码文本生成。➡️ 方法简介：研究团队提出了一种系统的方法，通过利用MLLMs生成大规模的图像-文本对，来训练一个可迁移的模型。2）减少合成文本描述中的噪声影响。为了提升模型在3D场景中的理解和推理能力，研究团队开发了一个大规模的2D和3D预训练数据集LV3D，并提出了一个新的MLLM模型Cube-LLM，通过纯数据扩展来实现强大的3D感知能力。

边缘大型语言模型综述：设计、执行和应用

m0_58988991的博客

05-09

743

文章《Edge 大型语言模型综述：设计、执行和应用》由Yue Zheng等人撰写，发表于2025年8月31日的《ACM Computing Surveys》期刊。该期刊影响因子为23.8，属于SCI Q1分区和中科院工程技术1区。文章全面探讨了边缘计算环境下大型语言模型的设计、执行及其应用。通过分析现有技术和未来趋势，作者提出了在资源受限的边缘设备上优化和部署大型语言模型的方法，并展示了其在智能设备、物联网等领域的实际应用。该研究为边缘计算与人工智能的融合提供了重要参考，推动了相关技术的发展。

SemanticSplitterNodeParser 和 Sentence-BERT 的区别和联系是什么

最新发布

陈开心的博客

05-10

749

确实，Sentence-BERT 本身并不负责切割文本，它的职责仅限于： ✅ 将句子或段落转成语义向量（embedding）也就是说：它不会判断“在哪切”；它不会负责实际的文本切分逻辑；它只是一个“编码器”或者“翻译器”，把自然语言翻成高维向量。

MCP（Model Context Protocol）是专为LLM（大语言模型）应用设计的标准化协议

大白菜代码的博客

05-09

728

MCP（Model Context Protocol）是为大语言模型（LLM）应用设计的标准化协议，旨在通过安全可控的方式向AI应用暴露数据和功能。MCP提供标准化的上下文管理、安全的功能调用接口、跨平台的数据交互协议和可审计的操作日志记录。其核心原语包括Tool（工具）、Resource（资源）和Prompt（提示模板），分别用于执行函数、提供只读数据和标准化对话流程。MCP支持标准输入输出（stdio）和基于HTTP的服务器推送事件（SSE）两种通信方式，适用于本地和分布式部署。开发指南推荐使用uv进行

基于语言模型的依存关系分句和主题变换检测（基于词频和句段得分）的意思

陈开心的博客

05-10

287

基于语言模型的依存关系分句和主题变换检测。依存关系分句通过分析句子中的语法结构，找到合理的断点，将复杂的长句拆分为更自然的小句，适用于处理专业文档中的复合句。主题变换检测则通过统计关键词和词频，识别文本中主题的变化，从而进行段落划分，适用于结构清晰的长文本，如新闻和病例报告。两种方法各有侧重，依存关系分句关注语法结构，主题变换检测则注重语义变化，分别适用于不同类型的文本处理需求。

大模型系列（四）--- GPT2: Language Models are Unsupervised Multitask Learners

china1000的专栏

05-07

1108

GPT-2 在最后一个自注意力层后增加层归一化（Layer Normalization, LN）主要与其架构调整和训练稳定性优化密切相关，具体原因如下：‌输出分布稳定性增强‌深层模型中，最后一层自注意力输出的激活值可能因参数累积出现分布偏移。额外添加的 LN 通过对输出的均值和方差进行归一化，使后续前馈层或生成阶段的输入分布更稳定，缓解梯度异常（如梯度爆炸），提升模型收敛效率24。‌生成阶段的动态控制‌语言模型的生成过程具有自回归特性，各时间步的输出需具备可控的数值范围。

旧版本gulp-plato插件不再推荐使用，简化复杂性报告流程

尽管如此，以下将详细探讨gulp-plato的基本使用方法和相关API，以便理解其功能和用途。 ### 知识点详细说明： #### 1. gulp-plato的基本概念 gulp-plato是基于Gulp构建工具的插件，用于分析JavaScript代码的质量和...