Datawhale AI 夏令营——学习笔记

m0_73378573

于 2024-07-28 16:58:05 发布

阅读量598

点赞数 7

文章标签：人工智能学习笔记

本文链接：https://blog.csdn.net/m0_73378573/article/details/140752780

版权

AI+化学赛道：task1催化反应产率预测

下载数据：

首先我们去下载数据

对官方发布的baseline进行学习：

Import dependency（需要的环境依赖）

Python3
pandas
scikit-learn
rdkit

!pip install pandas
!pip install -U scikit-learn
!pip install rdkit

导入用到的相关的库

import pickle
import pandas as pd
from tqdm import tqdm
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV, train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.feature_selection import SelectFromModel
from sklearn.metrics import mean_squared_error
from sklearn.pipeline import Pipeline
from rdkit.Chem import rdMolDescriptors
from rdkit import RDLogger, Chem
import numpy as np
import shap  # 安装shap库：pip install shap

# 禁用RDKit日志
RDLogger.DisableLog('rdApp.*')

特征提取

官方发布的数据是对化学分子的SMILES表达式，具体来说，有rxnid,Reactant1,Reactant2,Product,Additive,Solvent,Yield字段。其中：

rxnid 对数据的id标识，无实际意义
Reactant1 反应物1
Reactant2 反应物2
Product 产物
Additive 添加剂（包括催化剂catalyst等辅助反应物合成但是不对产物贡献原子的部分）
Solvent 溶剂
Yield 产率其中Reactant1,Reactant2,Product,Additive,Solvent都是由SMILES表示。

SMILES

SMILES,全称是Simplified Molecular Input Line Entry System，是一种将化学分子用ASCII字符表示的方法，是化学信息学领域非常重要的工具。

表1：一些常见的化学结构用SMILES表示。

表2：化学反应也可以用SMILES表示，用“>>”连接产物即可。

由于Reactant1,Reactant2,Product,Additive,Solvent都是由SMILES表示。所以，可以使用rdkit工具直接提取SMILES的分子指纹（向量），作为特征。

Morgan fingerprint

位向量（bit ector）形式的特征，即由0,1组成的向量。

RDKit

化学信息学中主要的工具，开源。网址：http://www.rdkit.org，支持WIN\MAC\Linux，可以被python、Java、C调用。几乎所有的与化学信息学相关的内容都可以在上面找到。

def mfgen(mol,nBits=2048, radius=2):
    '''
    Parameters
    ----------
    mol : mol
        RDKit mol object.
    nBits : int
        Number of bits for the fingerprint.
    radius : int
        Radius of the Morgan fingerprint.
    Returns
    -------
    mf_desc_map : ndarray
        ndarray of molecular fingerprint descriptors.
    '''
    # 返回分子的位向量形式的Morgan fingerprint
    fp = rdMolDescriptors.GetMorganFingerprintAsBitVect(mol,radius=radius,nBits=nBits)
    return np.array(list(map(eval,list(fp.ToBitString()))))

# 加载数据
def vec_cpd_lst(smi_lst):
    smi_vec_map = {}
    for smi in tqdm(set(smi_lst)):
        mol = Chem.MolFromSmiles(smi)
        if mol is not None:  # 确保SMILES可以被转换为mol对象
            smi_vec_map[smi] = mfgen(mol)
    smi_vec_map[''] = np.zeros(2048)  # 为无效的SMILES分配零向量
    return np.array([smi_vec_map.get(smi, smi_vec_map['']) for smi in smi_lst])

dataset_dir = '../dataset'   # # 注：如果是在AI Studio上，将这里改为'dataset'

train_df = pd.read_csv(f'{dataset_dir}/round1_train_data.csv')
test_df = pd.read_csv(f'{dataset_dir}/round1_test_data.csv')

print(f'Training set size: {len(train_df)}, test set size: {len(test_df)}')

dataset_dir = '../dataset'  # 根据需要调整路径
train_df = pd.read_csv(f'{dataset_dir}/round1_train_data.csv')
test_df = pd.read_csv(f'{dataset_dir}/round1_test_data.csv')

# 从csv中读取数据并生成分子指纹
train_fps = {
    'Reactant1': vec_cpd_lst(train_df['Reactant1'].to_list()),
    'Reactant2': vec_cpd_lst(train_df['Reactant2'].to_list()),
    'Additive': vec_cpd_lst(train_df['Additive'].to_list()),
    'Solvent': vec_cpd_lst(train_df['Solvent'].to_list())
}
test_fps = {
    'Reactant1': vec_cpd_lst(test_df['Reactant1'].to_list()),
    'Reactant2': vec_cpd_lst(test_df['Reactant2'].to_list()),
    'Additive': vec_cpd_lst(test_df['Additive'].to_list()),
    'Solvent': vec_cpd_lst(test_df['Solvent'].to_list())
}

# 拼接特征
train_x = np.hstack([train_fps[key] for key in ['Reactant1', 'Reactant2', 'Additive', 'Solvent']])
test_x = np.hstack([test_fps[key] for key in ['Reactant1', 'Reactant2', 'Additive', 'Solvent']])
train_y = train_df['Yield'].to_numpy()

# 数据标准化
scaler_x = StandardScaler()
train_x_scaled = scaler_x.fit_transform(train_x)
test_x_scaled = scaler_x.transform(test_x)

# 定义模型参数调优的参数网格
param_grid = {
    'feature_selection__estimator__n_estimators': [100, 200],
    'feature_selection__estimator__max_depth': [None, 10, 15],
    'feature_selection__estimator__min_samples_split': [2, 5],
    'feature_selection__estimator__min_samples_leaf': [1, 3],
    'feature_selection__estimator__max_features': ['auto', 'sqrt'],
    'regressor__n_estimators': [100, 200],
    'regressor__max_depth': [None, 10, 15],
    'regressor__min_samples_split': [2, 5],
    'regressor__min_samples_leaf': [1, 3],
    'regressor__max_features': ['auto', 'sqrt']
}

# 使用Pipeline来构建模型
pipeline = Pipeline([
    ('feature_selection', SelectFromModel(GradientBoostingRegressor())),
    ('regressor', RandomForestRegressor(n_jobs=-1))
])

# 使用RandomizedSearchCV进行超参数调优
random_search = RandomizedSearchCV(
    estimator=pipeline,
    param_distributions=param_grid,
    n_iter=100,
    cv=5,
    scoring='neg_mean_squared_error',
    random_state=42,
    n_jobs=-1
)

# 训练模型
random_search.fit(train_x_scaled, train_y)

# 打印最佳参数
print("Best parameters:", random_search.best_params_)

Model fitting and saving

使用随机森林进行建模。

sklearn (scikit-learn)

是一个非常广泛使用的开源机器学习库，基于Python，建立在NumPy、SciPy、Pandas和Matplotlib等数据处理和分析的库之上。
它涵盖了几乎所有主流机器学习算法，包括分类、回归、聚类、降维等。API设计亲民，整个使用简单易上手，非常适合作为机器学习入门的工具。官网：scikit-learn: machine learning in Python — scikit-learn 1.5.1 documentation

在sklearn中，几乎所有的机器学习的流程是：

实例化模型（并指定重要参数）；
model.fit(x, y) 训练模型；

随机森林

参数解释：

n_estimators=10：决策树的个数，越多越好；但是越多意味着计算开销越大；
max_depth: (default=None)设置树的最大深度，默认为None；
min_samples_split: 根据属性划分节点时，最少的样本数；
min_samples_leaf: 叶子节点最少的样本数；
n_jobs=1：并行job个数，-1表示使用所有cpu进行并行计算。

# 保存模型
with open('best_model.pkl', 'wb') as f:
    pickle.dump(best_model, f)


# 加载模型
with open('best_model.pkl', 'rb') as f:
    loaded_model = pickle.load(f)


# 预测
test_pred = loaded_model.predict(test_x_scaled)


ans_str_lst = ['rxnid,Yield']
for idx,y in enumerate(test_pred):
    ans_str_lst.append(f'test{idx+1},{y:.4f}')
with open('./submit.txt','w') as fw:
    fw.writelines('\n'.join(ans_str_lst))