【DataWhale AI 夏令营】物质科学赛道：催化反应产率预测——task1

飞升 | 霸气

已于 2024-07-28 00:02:12 修改

阅读量636

点赞数 8

文章标签：人工智能机器学习笔记

于 2024-07-27 23:51:35 首次发布

本文链接：https://blog.csdn.net/m0_64428166/article/details/140742799

版权

一、赛题任务

概括：构建一个能够准确预测碳氮成键反应产率的预测模型。

实现要求：通过对反应中所包含的反应底物、添加剂、溶剂以及产物进行合理的特征化，运用机器学习模型或者深度学习模型拟合预测反应的产率。

二、赛题数据

初赛数据集仅包含碳氮成键类型反应数据，其中训练集中包含23538条反应数据，测试集中包含2616条反应数据，训练集与测试集的比例接近9：1。

每条训练数据包含 rxnid, Reactant1, Reactant2 , Product , Additive , Solvent , Yield字段。其中 Reactant1 , Reactant2 , Product , Additive , Solvent 字段中为对应物质的SMILES字符串，Yield字段为目标字段，是经过归一化的浮点数。

三、baseline构建过程

1. 环境配置

配置以下环境的原因

pandas中一众函数：数据处理与分析的利器。
scikit-learn：提供机器学习中的回归算法，以及构建产率预测模型用到的随机森林算法。
rdkit中一众函数：与pandas搭配使用，负责处理本题的反应底物（数据集中的Reactant1, Reactant2）、产物（Product）、添加剂（Additive）、溶剂（Solvent）这些化学信息。

具体实现

!pip install pandas
!pip install -U scikit-learn
!pip install rdkit

2. 导入相关库

pickle：对对象进行序列化和反序列化处理。
tqdm：提供进度条，让训练模型的进度可视化。
numpy：扩展Python原有的数据计算，同时也是pandas库的基础。

import pickle
import pandas as pd
from tqdm import tqdm
from sklearn.ensemble import RandomForestRegressor
from rdkit.Chem import rdMolDescriptors
from rdkit import RDLogger,Chem
import numpy as np
RDLogger.DisableLog('rdApp.*')

3. 特征提取

SMILES

全称是Simplified Molecular Input Line Entry System，是一种将化学分子用ASCII字符表示的方法，是化学信息学领域非常重要的工具。

一些常见的化学结构的SMILES表示：

化学反应的SMILES表示：

其中，“.”相当于反应方程式的加号，“>>”相当于反应方程式的等号。

由于Reactant1,Reactant2,Product,Additive,Solvent都可以由SMILES表示。所以，可以使用rdkit工具直接提取SMILES的分子指纹（向量），作为特征。

Morgan fingerprint

位向量（bit ector）形式的特征，即由0,1组成的向量。

构建相关函数

mfgen：将从SMILES中提取的数据转化为位向量形式的Morgan分子指纹，方便处理。
vec_cpd_lst：用于加载SMILES列表的函数。

def mfgen(mol,nBits=2048, radius=2):
    '''
    Parameters
    ----------
    mol : mol
        RDKit mol object.
    nBits : int
        Number of bits for the fingerprint.
    radius : int
        Radius of the Morgan fingerprint.
    Returns
    -------
    mf_desc_map : ndarray
        ndarray of molecular fingerprint descriptors.
    '''
    # 返回分子的位向量形式的Morgan fingerprint
    fp = rdMolDescriptors.GetMorganFingerprintAsBitVect(mol,radius=radius,nBits=nBits)
    return np.array(list(map(eval,list(fp.ToBitString()))))

# 加载数据
def vec_cpd_lst(smi_lst):
    smi_set = list(set(smi_lst))
    smi_vec_map = {}
    for smi in tqdm(smi_set): # tqdm：显示进度条
        mol = Chem.MolFromSmiles(smi)
        smi_vec_map[smi] = mfgen(mol)
    smi_vec_map[''] = np.zeros(2048)
    
    vec_lst = [smi_vec_map[smi] for smi in smi_lst]
    return np.array(vec_lst)

4. 数据读取

读取数据集路径

dataset_dir = '../dataset'   # # 注：如果是在AI Studio上，将这里改为'dataset'

train_df = pd.read_csv(f'{dataset_dir}/round1_train_data.csv')
test_df = pd.read_csv(f'{dataset_dir}/round1_test_data.csv')

print(f'Training set size: {len(train_df)}, test set size: {len(test_df)}')

训练集数据读取

步骤：

从.csv文件中读取数据集中的数据，这些数据均能用SMILES表示。
通过vec_cpd_lst函数，将训练集中的反应物1、反应物2、添加剂、溶剂分别对应SMILES转化为机器易处理的Morgan分子指纹。
将这些分子指纹在dim=1维度进行拼接，方便处理。

# 从csv中读取数据
train_rct1_smi = train_df['Reactant1'].to_list()
train_rct2_smi = train_df['Reactant2'].to_list()
train_add_smi = train_df['Additive'].to_list()
train_sol_smi = train_df['Solvent'].to_list()

# 将SMILES转化为分子指纹
train_rct1_fp = vec_cpd_lst(train_rct1_smi)
train_rct2_fp = vec_cpd_lst(train_rct2_smi)
train_add_fp = vec_cpd_lst(train_add_smi)
train_sol_fp = vec_cpd_lst(train_sol_smi)

# 在dim=1维度进行拼接。即：将一条数据的Reactant1,Reactant2,Product,Additive,Solvent字段的morgan fingerprint拼接为一个向量。
train_x = np.concatenate([train_rct1_fp,train_rct2_fp,train_add_fp,train_sol_fp],axis=1)
train_y = train_df['Yield'].to_numpy()

测试集数据读取

步骤同上，区别在于不需要读取test_y，因为test_y是之后预测的结果。

test_rct1_smi = test_df['Reactant1'].to_list()
test_rct2_smi = test_df['Reactant2'].to_list()
test_add_smi = test_df['Additive'].to_list()
test_sol_smi = test_df['Solvent'].to_list()

test_rct1_fp = vec_cpd_lst(test_rct1_smi)
test_rct2_fp = vec_cpd_lst(test_rct2_smi)
test_add_fp = vec_cpd_lst(test_add_smi)
test_sol_fp = vec_cpd_lst(test_sol_smi)
test_x = np.concatenate([test_rct1_fp,test_rct2_fp,test_add_fp,test_sol_fp],axis=1)

5. 建立产率预测模型

随机森林所含参数

n_estimators=10：决策树的个数，越多越好；但是越多意味着计算开销越大；
max_depth: (default=None)设置树的最大深度，默认为None；
min_samples_split: 根据属性划分节点时，最少的样本数；
min_samples_leaf: 叶子节点最少的样本数；
n_jobs=1：并行job个数，-1表示使用所有cpu进行并行计算。

使用随机森林建模

# Model fitting
model = RandomForestRegressor(n_estimators=10,max_depth=10,min_samples_split=2,min_samples_leaf=1,n_jobs=-1) # 实例化模型，并指定重要参数
model.fit(train_x,train_y) # 训练模型

6. 模型的保存与预测

# 保存模型
with open('./random_forest_model.pkl', 'wb') as file:
    pickle.dump(model, file)

# 加载模型
with open('random_forest_model.pkl', 'rb') as file:
    loaded_model = pickle.load(file)

# 预测\推理
test_pred = loaded_model.predict(test_x)

生成预测结果submit文件

ans_str_lst = ['rxnid,Yield']
for idx,y in enumerate(test_pred):
    ans_str_lst.append(f'test{idx+1},{y:.4f}')
with open('./submit.txt','w') as fw:
    fw.writelines('\n'.join(ans_str_lst))