#Datawhale #AI夏令营

最新推荐文章于 2024-10-13 21:11:07 发布

devotion123

最新推荐文章于 2024-10-13 21:11:07 发布

阅读量296

点赞数 5

文章标签：人工智能 python 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/devotion123/article/details/140754864

版权

此次比赛的背景知识：碳氮成键反应、Diels-Alder环加成反应等一系列催化合成反应，被广泛应用于各类药物的生产合成中。研究人员与产业界在针对特定反应类型开发新的催化合成方法时，往往追求以高产率获得目标产物，也即开发高活性的催化反应体系，以提升原子经济性，减少资源的浪费与环境污染。然而，开发具有高活性的催化反应体系通常需要对包括催化剂和溶剂在内的多种反应条件进行详尽的探索，这导致了它成为了一项极为耗时且资源密集的任务。这要求对包括催化剂和溶剂在内的多种反应条件进行详尽的探索。目前，反应条件的筛选在很大程度上依赖于经验判断和偶然发现，导致催化反应条件的优化过程既耗时又费力，并且严重制约了新的高效催化合成策略的开发。

反应底物和反应条件是决定其产率的关键因素。因此，我们可以利用AI模型来捕捉底物、条件与产率之间的内在联系。借助产率预测AI模型，仅需输入底物和条件的信息，我们就能够预测该反应组合下的产率，从而有效提升催化反应的条件筛选效率。

首先加载官网给出的基本数据，并且引入化学反应中的基本工具与信息，将化学分子转化为向量形式进行输入

def mfgen(mol,nBits=2048, radius=2):

'''

Parameters

----------

mol : mol

RDKit mol object.

nBits : int

Number of bits for the fingerprint.

radius : int

Radius of the Morgan fingerprint.

Returns

-------

mf_desc_map : ndarray

ndarray of molecular fingerprint descriptors.

'''

# 返回分子的位向量形式的Morgan fingerprint

fp = rdMolDescriptors.GetMorganFingerprintAsBitVect(mol,radius=radius,nBits=nBits)

return np.array(list(map(eval,list(fp.ToBitString()))))

# 加载数据

def vec_cpd_lst(smi_lst):

smi_set = list(set(smi_lst))

smi_vec_map = {}

for smi in tqdm(smi_set): # tqdm：显示进度条

mol = Chem.MolFromSmiles(smi)

smi_vec_map[smi] = mfgen(mol)

smi_vec_map[''] = np.zeros(2048)

vec_lst = [smi_vec_map[smi] for smi in smi_lst]

return np.array(vec_lst)

然后从数据集中读取数据，并将化学符号转化为向量形式储存起来

# 从csv中读取数据

train_rct1_smi = train_df['Reactant1'].to_list()

train_rct2_smi = train_df['Reactant2'].to_list()

train_add_smi = train_df['Additive'].to_list()

train_sol_smi = train_df['Solvent'].to_list()

# 将SMILES转化为分子指纹

train_rct1_fp = vec_cpd_lst(train_rct1_smi)

train_rct2_fp = vec_cpd_lst(train_rct2_smi)

train_add_fp = vec_cpd_lst(train_add_smi)

train_sol_fp = vec_cpd_lst(train_sol_smi)

# 在dim=1维度进行拼接。即：将一条数据的Reactant1,Reactant2,Product,Additive,Solvent字段的morgan fingerprint拼接为一个向量。

train_x = np.concatenate([train_rct1_fp,train_rct2_fp,train_add_fp,train_sol_fp],axis=1)

train_y = train_df['Yield'].to_numpy()

# 测试集也进行同样的操作

test_rct1_smi = test_df['Reactant1'].to_list()

test_rct2_smi = test_df['Reactant2'].to_list()

test_add_smi = test_df['Additive'].to_list()

test_sol_smi = test_df['Solvent'].to_list()

test_rct1_fp = vec_cpd_lst(test_rct1_smi)

test_rct2_fp = vec_cpd_lst(test_rct2_smi)

test_add_fp = vec_cpd_lst(test_add_smi)

test_sol_fp = vec_cpd_lst(test_sol_smi)

test_x = np.concatenate([test_rct1_fp,test_rct2_fp,test_add_fp,test_sol_fp],axis=1)

随后用随机森林进行建模处理，通过设置决策树不同的深度来调节其工作效率，通过最少样本数进行整个的运算，先通过训练集进行练习，根据不同反应类型划分节点

# Model fitting

model = RandomForestRegressor(n_estimators=10,max_depth=10,min_samples_split=2,min_samples_leaf=1,n_jobs=-1) # 实例化模型，并指定重要参数

model.fit(train_x,train_y) # 训练模型

关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。