weixin_41804613-CSDN博客

原创 tiny-llama 训练教程

训练一个tiny-llama

2024-09-23 23:48:55 77

原创 DWC-tiny-universe-task1-llama3模型

在图片的左上角，每段文本，经由tokenizer变成input_ids之后转化为embedding，转化为hidden_state之后，开始进入到主干的transformers的网络结构。由于找了一阵子没有找到比较合适的llama3的架构图，这里用qwen系列的架构图作为替代。（以及预感这里的整篇文章会演变成对qwen系列的代码笔记）整体的定义结构如下，用下列的章节查看其对应的初始化以及前向的定义。初始化的模块中，除开一些参数的设置，重要的几个变量分别。这里的注意力机制，似乎比我知道的那个要再复杂一些。

2024-09-19 15:04:24 272

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weixin_41804613的博客

原创 tiny-llama 训练教程

原创 DWC-tiny-universe-task1-llama3模型

原创语音识别初尝（DataWhale语音识别入门赛）

原创天池-基于预训练任务的泛化能力改进-基于cleanlab的数据处理

原创天池-基于预训练任务的泛化能力

空空如也

空空如也

原创 tiny-llama 训练教程

原创 DWC-tiny-universe-task1-llama3模型

原创 语音识别初尝（DataWhale语音识别入门赛）

原创 天池-基于预训练任务的泛化能力改进-基于cleanlab的数据处理

原创 天池-基于预训练任务的泛化能力

空空如也

空空如也

原创语音识别初尝（DataWhale语音识别入门赛）

原创天池-基于预训练任务的泛化能力改进-基于cleanlab的数据处理

原创天池-基于预训练任务的泛化能力