自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Datawhale AI夏令营 AI+化学 task3

循环神经网络的序列到序列建模方法,在建模文本长程依赖方面都存在一定的局限性。循环神经网络:由于所有的前文信息都蕴含在一个隐向量里面,这会导致随着序列长度的增加,编码在隐藏状态中的序列早期的上下文信息被逐渐遗忘。卷积神经网络:受限的上下文窗口在建模长文本方面天然地存在不足。如果需要关注长文本,就需要多层的卷积操作。图1 循环神经网络中,每个词都会依赖上一个词完全通过注意力机制完成对序列的全局依赖的建模。并且,这是一种可以高并行的结构,大大增加了计算效率。

2024-08-03 14:17:55 516

原创 Datawhale AI夏令营 AI+化学 task2

# import matplotlib.pyplot as plt## 数据处理部分# tokenizer,鉴于SMILES的特性,这里需要自己定义tokenizer和vocab# 这里直接将smiles str按字符拆分,并替换为词汇表中的序号class Smiles_tokenizer(): def __init__(self, pad_token, regex, vocab_file, max_length): self.pad_token = pad_token

2024-07-29 23:40:24 1336

原创 DataWhale AI夏令营 AI+化学 task1

然后将Reactant1,Reactant2,Product,Additive,Solvent字段的向量拼接到一起,组成一个更长的向量。此步先要完成特征提取,具体来说,有rxnid,Reactant1,Reactant2,Product,Additive,Solvent,Yield字段。是一个非常广泛使用的开源机器学习库,基于Python,建立在NumPy、SciPy、Pandas和Matplotlib等数据处理和分析的库之上。API设计亲民,整个使用简单易上手,非常适合作为机器学习入门的工具。

2024-07-26 12:46:58 1530

原创 Datawhale AI 夏令营 task03

在task02的基础上使用优化方案在数据挖掘比赛中,总是最终制胜法宝,去思考什么信息可以帮助我们提高预测精准度,然后将其转化为特征输入到模型。间存在很大的差异,预测结果也会不一样,比赛的过程就是不断的实验和试错的过程,通过不断的实验寻找最佳模型,同时帮助自身加强模型的理解能力。

2024-07-21 01:57:19 267

原创 Datawhale AI 夏令营 task02

通过baseline代码和进阶代码分析数据、学习特征构建方式,分数初步提高,入门机器学习建模。

2024-07-18 00:11:29 1292

原创 Datawhale AI 夏令营

本次任务旨在使用五分钟的时间,快速体验一站式baseline机器学习。

2024-07-14 23:19:25 131

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除