Datawhale AI 夏令营第三期物质科学方向学习笔记

最新推荐文章于 2024-07-28 14:08:54 发布

Alyeska

最新推荐文章于 2024-07-28 14:08:54 发布

阅读量225

点赞数 2

文章标签：人工智能学习笔记

本文链接：https://blog.csdn.net/alyeska/article/details/140691433

版权

#Datawhale# #AI 夏令营#

Task1 Baseline代码分析

在命令行进行所需库的安装:

pandas：数据处理和分析

scikit-learn：机器学习库

rdkit：化学信息学相关工具，python API ：Python API Reference — The RDKit 2024.03.5 documentation

!pip install pandas
!pip install -U scikit-learn
!pip install rdkit

库函数导入：

pickle：通过序列化操作将对象信息永久存储，python中几乎所有的数据类型都可用，需要用到时再通过反序列化还原该对象

tqdm：进度条库 tqdm documentation

sklearn.ensemble：集成学习相关，此处调用随机森林回归方法

rdkit.Chem.rdMolDescriptors：该模块包含用于计算分子描述符的函数

RDLogger.DisableLog('rdApp.*')：warning警告关闭

import pickle
import pandas as pd
from tqdm import tqdm
from sklearn.ensemble import RandomForestRegressor
from rdkit.Chem import rdMolDescriptors
from rdkit import RDLogger,Chem
import numpy as np
RDLogger.DisableLog('rdApp.*')

摩根分子指纹计算：

输入：mol——RDKit分子对象；nBits——指定指纹长度；radius——Morgan指纹算法的半径参数

输出：返回一个分子指纹描述符数组

具体过程：调用 GetMorganFingerprintAsBitVect 函数计算指定分子 mol 的 Morgan 指纹，将指纹对象 fp 用 ToBitString 函数转换为包含位信息的字符串，之后转为列表，用 eval 函数将每个字符转换为整数，最后合并为一个 ndarray.

def mfgen(mol,nBits=2048, radius=2):
    '''
    Parameters
    ----------
    mol : mol
        RDKit mol object.
    nBits : int
        Number of bits for the fingerprint.
    radius : int
        Radius of the Morgan fingerprint.
    Returns
    -------
    mf_desc_map : ndarray
        ndarray of molecular fingerprint descriptors.
    '''
    # 返回分子的位向量形式的Morgan fingerprint
    fp = rdMolDescriptors.GetMorganFingerprintAsBitVect(mol,radius=radius,nBits=nBits)
    return np.array(list(map(eval,list(fp.ToBitString()))))

加载数据：

输入：包含多个SMILES表示的化合物的列表；

输出：由各化合物相应的Morgan指纹向量组成的数组

具体过程：对列表去重，使用 mfgen 函数计算并建立从SMILES表示到Morgan指纹的映射。

def vec_cpd_lst(smi_lst):
    smi_set = list(set(smi_lst))
    smi_vec_map = {}
    for smi in tqdm(smi_set): # tqdm：显示进度条
        mol = Chem.MolFromSmiles(smi)
        smi_vec_map[smi] = mfgen(mol)
    smi_vec_map[''] = np.zeros(2048)
    
    vec_lst = [smi_vec_map[smi] for smi in smi_lst]
    return np.array(vec_lst)

数据读取：

#读入数据的原始csv文件，记录训练集和测试集长度
dataset_dir = '../dataset'   # # 注：如果是在AI Studio上，将这里改为'dataset'
train_df = pd.read_csv(f'{dataset_dir}/round1_train_data.csv')
test_df = pd.read_csv(f'{dataset_dir}/round1_test_data.csv')
print(f'Training set size: {len(train_df)}, test set size: {len(test_df)}')

预处理：取 Rct1、Rct2、Additive、Solvent 四个字段对应指纹拼接作为训练集输入，Yield 字段作为训练集输出。测试集输入同理（代码略）

#根据不同字段整合训练集数据，并转化到对应指纹
train_rct1_smi = train_df['Reactant1'].to_list()
train_rct2_smi = train_df['Reactant2'].to_list()
train_add_smi = train_df['Additive'].to_list()
train_sol_smi = train_df['Solvent'].to_list()

train_rct1_fp = vec_cpd_lst(train_rct1_smi)
train_rct2_fp = vec_cpd_lst(train_rct2_smi)
train_add_fp = vec_cpd_lst(train_add_smi)
train_sol_fp = vec_cpd_lst(train_sol_smi)

#实际使用的训练集输入：rct1,rct2,add,sol这四个字段的指纹拼接；训练集输出：Yield字段数据
train_x = np.concatenate([train_rct1_fp,train_rct2_fp,train_add_fp,train_sol_fp],axis=1)
train_y = train_df['Yield'].to_numpy()

随机森林建模(明天写)

Alyeska

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Datawhale AI 夏令营第三期物质科学方向学习笔记

具体过程：调用 GetMorganFingerprintAsBitVect 函数计算指定分子 mol 的 Morgan 指纹，将指纹对象 fp 用 ToBitString 函数转换为包含位信息的字符串，之后转为列表，用 eval 函数将每个字符转换为整数，最后合并为一个 ndarray.pickle：通过序列化操作将对象信息永久存储，python中几乎所有的数据类型都可用，需要用到时再通过反序列化还原该对象。具体过程：对列表去重，使用 mfgen 函数计算并建立从SMILES表示到Morgan指纹的映射。
复制链接

扫一扫