自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Datawhale AI 夏令营_Task3 baseline02 个人学习记录

在之前的两个任务中,我们已经学会了如何使用魔搭社区和使用api实现任务。现在我们开始学习如何进行对baseline的微调。本次微调采用qwen2-72b模型,使用LoRA(Low-Rank Adaptation)的模型微调技术,利用vLLM(大规模语言模型高速推理框架来)加速推理,采用多路LLM投票的方式实现模型调整。LoRA(Low-Rank Adaptation)微调是一种高效的模型微调技术,特别适用于大型预训练语言模型的适应性调整。

2024-08-02 21:05:39 375

原创 Datawhale AI 夏令营_Task1笔记

深度学习模型的一个关键优势在于它们能够自动学习特征表示,不需要人工进行特征工程,这对于逻辑推理问题尤为重要,因为这些问题可能涉及到复杂的语言模式和隐含的逻辑关系。此外,预训练模型(如BERT)的出现使得模型能够在大量未标记文本上进行预训练,然后再针对具体任务进行微调,这种迁移学习的能力极大地提高了模型的性能和泛化能力。推理阶段: 在测试或应用阶段,模型接收新的问题和选项,将其转换为相应的向量表示,然后通过模型进行预测,得到每个选项的得分或概率分布,最后选择得分最高的选项作为答案。

2024-07-28 20:14:57 1270

原创 Datawhale AI 夏令营_Task3:基于Transformer解决机器翻译任务

操作是基于 Transformer 的机器翻译模型的基本操作,在源语言的编码和目标语言的生成中频繁地被使用以建模源语言、目标语言任意两个单词之间的依赖关系。自注意力机制(Self-Attention):这是Transformer的核心概念之一,它使模型能够同时考虑输入序列中的所有位置,而不是像循环神经网络(RNN)或卷积神经网络(CNN)一样逐步处理。位置编码(Positional Encoding):由于Transformer没有内置的序列位置信息,它需要额外的位置编码来表达输入序列中单词的位置顺序。

2024-07-20 21:46:46 1412

原创 Datawhale AI 夏令营_Task2_Day1:从baseline代码详解入门深度学习

将训练营所给出的task2模型按照之前的方法放到魔搭平台的虚拟机中进行运行,不过目前所用的seq2seq模型还是太差了,即使训练量增加结果也不怎么样,所以只是训练五轮。:是一个用于自然语言处理(NLP)任务的库,它提供了丰富的功能,包括数据预处理、词汇构建、序列化和批处理等,特别适合于文本分类、情感分析、机器翻译等任务。使用预训练的词向量或自己训练词向量,将词汇表中的词映射到高维空间中的向量,以捕捉语义信息。:限制输入序列的长度,过长的序列可能增加计算成本,同时也可能包含冗余信息。

2024-07-17 20:00:52 651

原创 Datawhale AI 夏令营_Task1:了解机器翻译&baseline粗略调整

在给出的基础模型代码中,可以在main里找到一个熟悉的变量N,它代表选择训练的样本个数;ps:N和N_EPOCHS也不是越高越好,都有一个上限和下限,超过或低于某个值训练过程所给出的train_loss就不会变化了,也就是出现了前文所说的过拟合现象。第一次的测试结果差强人意,在略微了解了一下baseline里的代码结合代码中所留下的注释后,对两个地方修改后,进行了第二次的测试。:用于最终评估模型的性能,是在模型训练和调参完全完成后,用来衡量模型实际应用效果的一组数据。将这两个值改为你所期望的值,再次测试。

2024-07-14 22:31:56 413

原创 速通第一个NLP竞赛分数_Datawhale AI 夏令营

在Datawhale AI夏令营的帮助下,得到第一个基于术语词典干预的机器翻译挑战赛的分数

2024-07-13 17:52:03 284

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除