自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 Datawhale AI夏令营--第二届世界科学智能大赛物质科学赛道:催化反应产率预测(3)

本次练习围绕Transformer建模建模来进行预测,先来了解一下吧。Transformer模型是一种基于‌自注意力机制的神经网络模型,主要用于处理序列数据,特别是在自然语言处理领域。其建模过程主要包括以下几个关键部分:基本结构:Transformer模型由‌编码器和解码器两部分组成,每个部分都包含多个相同的Transformer块。编码器负责处理输入序列,解码器负责生成输出序列。每个Transformer块内部包含自注意力机制、前馈神经网络以及‌残差连接和‌层归一化。‌自注意力机制:自注意力机制是Tran

2024-08-01 16:31:06 664

原创 Datawhale AI夏令营--第二届世界科学智能大赛物质科学赛道:催化反应产率预测(2)

定义了一个RNNModel类(未在代码中给出),它接受上述超参数并创建RNN模型。将模型移至指定的设备(GPU或CPU)。使用Adam优化器进行训练。选择L1Loss(MAE)作为损失函数。在每个epoch中,遍历训练数据,计算损失,进行反向传播,优化参数,并裁剪梯度。打印每个epoch的平均损失,并在损失降低时保存模型。

2024-07-30 16:43:33 1961

原创 Datawhale AI夏令营--第二届世界科学智能大赛物质科学赛道:催化反应产率预测(1)

任务:构建一个能够准确预测碳氮成键反应产率的预测模型。通过对反应中所包含的反应底物、添加剂、溶剂以及产物进行合理的特征化,运用机器学习模型或者深度学习模型拟合预测反应的产率。或者利用训练集数据对开源大语言模型进行微调以预测反应的产率。总结:输入:底物和条件,(SMILES)输出:产率,(float,0-1之间)

2024-07-26 15:06:24 344

原创 Datawhale AI夏令营--NLP方向:多语言机器翻译模型的构建与训练之基于Transformer解决机器翻译任务 (3)--[基于术语词典干预的机器翻译挑战赛]

基于或神经网络的序列到序列建模方法是现存机器翻译任务中的经典方法。然而,它们在。对于来说,受限的上下文窗口在建模长文本方面天然地存在不足。如果要对长距离依赖进行描述,需要多层卷积操作,而且不同层之间信息传递也可能有损失,这些都限制了模型的能力。而对于来说,上下文的语义依赖是通过维护循环单元中的隐状态实现的。在编码过程中,每一个时间步的输入建模都涉及到对隐藏状态的修改。随着序列长度的增加,编码在隐藏状态中的序列早期的上下文信息被逐渐遗忘。

2024-07-18 15:45:39 522

原创 Datawhale AI夏令营--机器学习方向:运用机器学习实现电力需求预测(3)--尝试使用深度学习方案。[电力需求预测挑战赛]

通过这次夏令营的,虽然说对机器学习领域还没很深的了解。但是跟着学,多多少少学到了一些。比如模型的建立、特征优化等。其实对我来说确实有点难度。还好,学习到了很多知识点。

2024-07-18 15:37:29 1847 1

原创 Datawhale AI夏令营--NLP方向:多语言机器翻译模型的构建与训练之Seq2Seq (2)--[基于术语词典干预的机器翻译挑战赛]

‌这种结合了注意力机制的Seq2Seq模型在自然语言翻译、‌人机对话等领域得到了广泛的应用,‌并进一步拓展到其他需要序列转换的任务中。Seq2Seq模型基于Encoder-Decoder(‌编码器-解码器)‌框架的神经网络模型,‌其中编码器和解码器可以是一层或多层RNN、‌LSTM、‌GRU等神经网络。‌ 这种模型最初应用于机器翻译任务,‌但因其灵活性和有效性,‌现已被广泛应用于自然语言处理(NLP)、‌语音识别、‌图像描述生成、‌对话系统、‌文本摘要等众多领域中涉及序列转换的问题。运行环境我们还是基于。

2024-07-17 10:56:27 590

原创 Datawhale AI夏令营--NLP方向:多语言机器翻译模型的构建与训练(1)--[基于术语词典干预的机器翻译挑战赛]

机器翻译(Machine Translation,简称MT)是自然语言处理领域的一个重要分支,其目标是将一种语言的文本自动转换为另一种语言的文本。机器翻译的发展可以追溯到20世纪50年代,经历了从基于规则的方法、统计方法到深度学习方法的演变过程。早期的机器翻译系统主要采用基于规则的方法,即利用语言学家编写的语法规则和词典进行翻译。这种方法需要对源语言和目标语言的语法和词汇有深入的理解,但其灵活性和适应性较差,难以处理复杂的语言结构和多义词问题。

2024-07-16 15:48:04 743

原创 Datawhale AI夏令营--机器学习方向:运用机器学习实现电力需求预测(2)--入门lightgbm,开始特征工程。[电力需求预测挑战赛]

使用数据集绘制柱状图和折线图,使用时间序列数据构建历史平移特征和窗口统计特征,使用lightgbm模型进行训练并预测。

2024-07-15 14:58:40 1434

原创 Datawhale AI夏令营--机器学习方向:运用机器学习实现电力需求预测(1)--体验一站式Baseline。[电力需求预测挑战赛]

1、时间序列问题是指对按时间顺序排列的数据点进行分析和预测的问题,往往用来做未来的趋势预测。比如,基于历史股票每天的股价,预测未来股票的价格走向。电力需求的准确预测对于电网的稳定运行、能源的有效管理以及可再生能源的整合至关重要。

2024-07-14 15:40:20 356

Datawhale AI夏令营-第二届世界科学智能大赛物质科学赛道:催化反应产率预测(2)(3)资料

Datawhale AI夏令营--第二届世界科学智能大赛物质科学赛道:催化反应产率预测(2)(3)资料--词汇表的文件vocab_full.txt

2024-08-01

Datawhale AI夏令营-NLP方向-[基于术语词典干预的机器翻译挑战赛]-资料

Datawhale AI夏令营-NLP方向-[基于术语词典干预的机器翻译挑战赛]-资料

2024-07-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除