文章目录
一、赛题任务
概括:构建一个能够准确预测碳氮成键反应产率的预测模型。
实现要求:通过对反应中所包含的反应底物、添加剂、溶剂以及产物进行合理的特征化,运用机器学习模型或者深度学习模型拟合预测反应的产率。
二、赛题数据
初赛数据集仅包含碳氮成键类型反应数据,其中训练集中包含23538条反应数据,测试集中包含2616条反应数据,训练集与测试集的比例接近9:1。
每条训练数据包含 rxnid, Reactant1, Reactant2 , Product , Additive , Solvent , Yield字段。其中 Reactant1 , Reactant2 , Product , Additive , Solvent 字段中为对应物质的SMILES字符串,Yield字段为目标字段,是经过归一化的浮点数。
三、baseline构建过程
1. 环境配置
配置以下环境的原因
pandas中一众函数:数据处理与分析的利器。
scikit-learn:提供机器学习中的回归算法,以及构建产率预测模型用到的随机森林算法。
rdkit中一众函数:与pandas搭配使用,负责处理本题的反应底物(数据集中的Reactant1, Reactant2)、产物(Product)、添加剂(Additive)、溶剂(Solvent)这些化学信息。
具体实现
!pip install pandas
!pip install -U scikit-learn
!pip install rdkit
2. 导入相关库
pickle:对对象进行序列化和反序列化处理。
tqdm:提供进度条,让训练模型的进度可视化。
numpy:扩展Python原有的数据计算,同时也是pandas库的基础。
import pickle
import pandas as pd
from tqdm import tqdm
from sklearn.ensemble import RandomForestRegressor
from rdkit.Chem import rdMolDescriptors
from rdkit import RDLogger,Chem
import numpy as np
RDLogger.DisableLog('rdApp.*')
3. 特征提取
SMILES
全称是Simplified Molecular Input Line Entry System,是一种将化学分子用ASCII字符表示的方法,是化学信息学领域非常重要的工具。
一些常见的化学结构的SMILES表示:
化学反应的SMILES表示:
其中,“.”相当于反应方程式的加号,“>>”相当于反应方程式的等号。
由于Reactant1,Reactant2,Product,Additive,Solvent都可以由SMILES表示。所以,可以使用rdkit工具直接提取SMILES的分子指纹(向量),作为特征。
Morgan fingerprint
位向量(bit ector)形式的特征,即由0,1组成的向量。
构建相关函数
mfgen:将从SMILES中提取的数据转化为位向量形式的Morgan分子指纹,方便处理。
vec_cpd_lst:用于加载SMILES列表的函数。
def mfgen(mol,nBits=2048, radius=2):
'''
Parameters
----------
mol : mol
RDKit mol object.
nBits : int
Number of bits for the fingerprint.
radius : int
Radius of the Morgan fingerprint.
Returns
-------
mf_desc_map : ndarray
ndarray of molecular fingerprint descriptors.
'''
# 返回分子的位向量形式的Morgan fingerprint
fp = rdMolDescriptors.GetMorganFingerprintAsBitVect(mol,radius=radius,nBits=nBits)
return np.array(list(map(eval,list(fp.ToBitString()))))
# 加载数据
def vec_cpd_lst(smi_lst):
smi_set = list(set(smi_lst))
smi_vec_map = {}
for smi in tqdm(smi_set): # tqdm:显示进度条
mol = Chem.MolFromSmiles(smi)
smi_vec_map[smi] = mfgen(mol)
smi_vec_map[''] = np.zeros(2048)
vec_lst = [smi_vec_map[smi] for smi in smi_lst]
return np.array(vec_lst)
4. 数据读取
读取数据集路径
dataset_dir = '../dataset' # # 注:如果是在AI Studio上,将这里改为'dataset'
train_df = pd.read_csv(f'{dataset_dir}/round1_train_data.csv')
test_df = pd.read_csv(f'{dataset_dir}/round1_test_data.csv')
print(f'Training set size: {len(train_df)}, test set size: {len(test_df)}')
训练集数据读取
步骤:
- 从.csv文件中读取数据集中的数据,这些数据均能用SMILES表示。
- 通过vec_cpd_lst函数,将训练集中的反应物1、反应物2、添加剂、溶剂分别对应SMILES转化为机器易处理的Morgan分子指纹。
- 将这些分子指纹在dim=1维度进行拼接,方便处理。
# 从csv中读取数据
train_rct1_smi = train_df['Reactant1'].to_list()
train_rct2_smi = train_df['Reactant2'].to_list()
train_add_smi = train_df['Additive'].to_list()
train_sol_smi = train_df['Solvent'].to_list()
# 将SMILES转化为分子指纹
train_rct1_fp = vec_cpd_lst(train_rct1_smi)
train_rct2_fp = vec_cpd_lst(train_rct2_smi)
train_add_fp = vec_cpd_lst(train_add_smi)
train_sol_fp = vec_cpd_lst(train_sol_smi)
# 在dim=1维度进行拼接。即:将一条数据的Reactant1,Reactant2,Product,Additive,Solvent字段的morgan fingerprint拼接为一个向量。
train_x = np.concatenate([train_rct1_fp,train_rct2_fp,train_add_fp,train_sol_fp],axis=1)
train_y = train_df['Yield'].to_numpy()
测试集数据读取
步骤同上,区别在于不需要读取test_y,因为test_y是之后预测的结果。
test_rct1_smi = test_df['Reactant1'].to_list()
test_rct2_smi = test_df['Reactant2'].to_list()
test_add_smi = test_df['Additive'].to_list()
test_sol_smi = test_df['Solvent'].to_list()
test_rct1_fp = vec_cpd_lst(test_rct1_smi)
test_rct2_fp = vec_cpd_lst(test_rct2_smi)
test_add_fp = vec_cpd_lst(test_add_smi)
test_sol_fp = vec_cpd_lst(test_sol_smi)
test_x = np.concatenate([test_rct1_fp,test_rct2_fp,test_add_fp,test_sol_fp],axis=1)
5. 建立产率预测模型
随机森林所含参数
n_estimators=10: 决策树的个数,越多越好;但是越多意味着计算开销越大;
max_depth: (default=None)设置树的最大深度,默认为None;
min_samples_split: 根据属性划分节点时,最少的样本数;
min_samples_leaf: 叶子节点最少的样本数;
n_jobs=1: 并行job个数,-1表示使用所有cpu进行并行计算。
使用随机森林建模
# Model fitting
model = RandomForestRegressor(n_estimators=10,max_depth=10,min_samples_split=2,min_samples_leaf=1,n_jobs=-1) # 实例化模型,并指定重要参数
model.fit(train_x,train_y) # 训练模型
6. 模型的保存与预测
# 保存模型
with open('./random_forest_model.pkl', 'wb') as file:
pickle.dump(model, file)
# 加载模型
with open('random_forest_model.pkl', 'rb') as file:
loaded_model = pickle.load(file)
# 预测\推理
test_pred = loaded_model.predict(test_x)
生成预测结果submit文件
ans_str_lst = ['rxnid,Yield']
for idx,y in enumerate(test_pred):
ans_str_lst.append(f'test{idx+1},{y:.4f}')
with open('./submit.txt','w') as fw:
fw.writelines('\n'.join(ans_str_lst))