代码片段
文章平均质量分 56
Hi20240217
每天进步一点点
展开
-
不破坏预训练模型结构且与Lora微调后的模型等价
Lora模块的引入破坏了图优化逻辑,是否能在不破坏原始的图的情况下,通过修改权值等价实现呢: 将Lora的结果做为Ground True,去训练原始的Linear: 方案虽然可行,但计算成本太高,Lora的初衷是减少微调的计算量。原创 2024-06-14 10:53:15 · 133 阅读 · 0 评论 -
本文基于DeepSeek-V2-Chat多卡推理,演示了几种不同的Profing方法
本文基于DeepSeek-V2-Chat多卡推理,演示了几种不同的Profing方法。原创 2024-06-13 21:23:45 · 253 阅读 · 0 评论 -
以bert为例,了解Lora是如何添加到模型中的
本文以bert为例,对比了添加Lora模块前后的网络结构图。原创 2024-06-13 19:43:51 · 431 阅读 · 0 评论 -
DeepSeek-V2-Chat多卡推理(不考虑性能)
本文演示了如何使用accelerate推理DeepSeek-V2-Chat(裁剪以后的模型,仅演示如何将权值拆到多卡)原创 2024-06-12 22:12:06 · 310 阅读 · 0 评论 -
测试bert_base不同并行方式下的推理性能
本文测试了bert_base模型在不同并行方式下的推理性能。原创 2024-06-12 22:00:46 · 1063 阅读 · 0 评论 -
下载NVIDIA官网的培训视频,生成中文字幕和PPT
想学习NVIDIA官网上的培训视频,但视频没有字幕,又希望能离线观看,以下的操作步骤。1.m3u8视频的下载及转换。3.ffmpeg字幕的使用。2.whisper的使用。原创 2024-06-11 10:44:21 · 846 阅读 · 0 评论 -
获取gitee上某个组织所有仓库的介绍
背景: 想用LLM总结一下ascend的开源项目步骤:1.用下面的脚本抓取所有项目介绍2.合并文件3.上传到4.提问。原创 2024-06-06 19:14:35 · 409 阅读 · 0 评论 -
NeMo训练llama2_7b(不用NeMo-Framework-Launcher)
本文介绍了NeMo如何训练llama2_7b模型。原创 2024-06-04 21:53:52 · 532 阅读 · 0 评论 -
autotrain学习-环境搭建、模型和数据集下载、训练全过程
autotrain框架可以通过配置简单的yaml文件就能训练dreambooth,llm_sft,llm_dpo, llm_orpo,llm_generic,llm_reward,text_classification,text_regression,token_classification image_object_detection seq2seq image_classification等模型,本文以SFT微调为例演示如何一步步操作。为了快速测试多个不同的模型,没有下载模型的权值。原创 2024-06-04 13:53:01 · 677 阅读 · 0 评论 -
采用MongoDB记录不同设备上pytorch算子的精度和性能差异
分别在不同平台上运行pytorch算子,将算子的描述、延迟、输出结果的统计信息等记录到MongoDB中,方便后续的对比和分析。之前是采用json库每次都打开关闭文件,发现效率太低.最后选择用数据库的方式保存。原创 2024-06-03 15:22:56 · 439 阅读 · 0 评论 -
LLM输出格式化后的世界战争事件
希望LLM输出格式化后的世界战争事件代码参考: 通过LLM多轮对话生成单元测试用例原创 2024-06-01 23:12:58 · 384 阅读 · 0 评论 -
为pytorch前向和反向的Tensor生成描述性统计
在调试Megatron-DeepSpeed的精度时,我们希望对比每一层前向和反向传播的输入输出误差。然而,由于数据量过大,直接保存所有数据不太现实。因此,我们生成了输入输出tensor的描述性统计信息,并等间隔抽样N个数据点,以比较这些点的相对误差,从而查找精度异常的位置。为了准确定位,我们通过类名和对象ID生成唯一的对象名称(形式为[类名-创建的第几个])以及前向和反向传播的次数。通过保存上述信息,我们可以详细记录并回溯当时的实际输入输出数据。原创 2024-05-15 21:52:26 · 619 阅读 · 0 评论 -
常用时间转换函数
常用时间转换函数原创 2024-05-15 08:32:34 · 215 阅读 · 1 评论