2024Datawhale AI 夏令营 3期物质赛道 TASK1

Mr_Smlie_000

已于 2024-07-28 12:01:38 修改

阅读量497

点赞数 17

分类专栏： 2024Datawhale AI 夏令营 3期物质赛道文章标签：人工智能

于 2024-07-28 12:00:10 首次发布

本文链接：https://blog.csdn.net/qq_68297714/article/details/140747533

版权

2024Datawhale AI 夏令营 3期物质赛道专栏收录该内容

1 篇文章 0 订阅

订阅专栏

这是我第二次参加，2024Datawhale AI 夏令营，可以明显感受到，相较于二期时的氛围而言，三期的氛围更加的好，代码的优化思路更加多。下面简单讲一下这几天的见过的一下简单问题以及个人对于baseline代码的理解。

可能存在的问题

首先是我见过的问题，最常见的问题是魔搭平台打不开或者中途出现问题，。

前者可以自己检查一下是否开启了魔法（懂得都懂），更换浏览器、清理浏览器缓存或者重启电脑来进行解决。

后者可如果是在运行到一半是直接崩溃那就没有办法；如果是出现文件因为路径问题而导致的代码无法正常运行，请静下心来认真检查路径并做出修改，不要出现一边改代码中的路径一边改变文件位置的情况，可能会导致一直无法指定到正确的地址。

个人对baseline的理解

1、环境配置

本人建议直接使用pycharm （本地部署）或者直接使用官方提供的，如果有一定的基础，也可以自行选择方式。

魔搭直接按照教程就好了，这里不再赘述。pycharm的话可以自行选择是安装普通的Python（还要独立安装Jupyter，后面pycharm虚拟解释器一键安装即可）还是直接安装anaconda（直接带有Jupyter），并配置对应环境（可以直接搜索，网络上都有）。

2、安装库

为了防止小白不会操作，baseline中已经配置好了安装库的代码，只要一键执行即可，中间可能会出现报错，但是可以忽视，不会影响运行。

!pip install pandas
!pip install -U scikit-learn
!pip install rdkit

3、导入库

接下来的代码导入了运行时必要的库：

import pickle
import pandas as pd
from tqdm import tqdm
from sklearn.ensemble import RandomForestRegressor
from rdkit.Chem import rdMolDescriptors
from rdkit import RDLogger,Chem
import numpy as np

RDLogger.DisableLog('rdApp.*')

库作用介绍

pickle 是Python的标准库之一，用于序列化和反序列化Python对象结构。它可以将对象转换为字节流（序列化），以便存储在文件中或通过网络传输，并且可以将其还原为原始对象（反序列化）。

pandas 是一个强大的数据处理和分析库，提供了高效的数据结构（如DataFrame）和数据分析工具。

tqdm 是一个快速、可扩展的Python进度条库，可以在循环或迭代过程中显示进度。tqdm 可以包裹任何可迭代对象，并在循环过程中显示进度条。

sklearn（Scikit-learn）是一个用于机器学习的Python库。RandomForestRegressor 是 sklearn.ensemble`模块中的一个类，用于实现随机森林回归模型。

RDKit 是一个用于化学信息学的开源库。rdMolDescriptors 模块提供了多种分子描述符的计算功能，可以用于计算分子的各种物理化学性质和结构特征。RDLogger 是 RDKit 中的一个模块，用于控制日志记录。`Chem 模块包含了处理化学分子和反应的核心功能。

numpy 是一个用于科学计算的Python库，提供了支持大规模多维数组和矩阵运算的功能。

关于 RDLogger.DisableLog('rdApp.*'):

这行代码用于禁用 RDKit 的所有日志记录，从而减少输出中的冗余信息（防止刷屏）。

4、转换为分子指纹

mfgen 用于生成Morgan指纹，其中：

参数：
- mol ：RDKit的分子对象。
- nBits：指纹的位数。
- radius：Morgan指纹的半径。

def mfgen(mol,nBits=2048, radius=2):
    # 返回分子的位向量形式的Morgan fingerprint
    fp = rdMolDescriptors.GetMorganFingerprintAsBitVect(mol,radius=radius,nBits=nBits)
    return np.array(list(map(eval,list(fp.ToBitString()))))

vec_cpd_lst 将SMILES列表转换为分子指纹向量列表。

参数：
- smi_lst：SMILES字符串列表。
步骤：
1. 去重SMILES列表。
2. 使用 tqdm 显示示进度条，遍历去重后的SMILES列表。
3. 将每个SMILES字符串转换为RDKit分子对象，并生成其Morgan指纹。
4. 将生成的指纹存储在字典。
5. 为空SMILES字符串添加一个全零的指纹 smi_vec_map。
6. 根据原始SMILES列表生成指纹向量列表，并返回。

# 加载数据
def vec_cpd_lst(smi_lst):
    smi_set = list(set(smi_lst))
    smi_vec_map = {}
    for smi in tqdm(smi_set): # tqdm：显示进度条
        mol = Chem.MolFromSmiles(smi)
        smi_vec_map[smi] = mfgen(mol)
    smi_vec_map[''] = np.zeros(2048)
    
    vec_lst = [smi_vec_map[smi] for smi in smi_lst]
    return np.array(vec_lst)

5、加载数据

dataset_dir = '../dataset'   # # 注：如果是在AI Studio上，将这里改为'dataset'

train_df = pd.read_csv(f'{dataset_dir}/round1_train_data.csv')
test_df = pd.read_csv(f'{dataset_dir}/round1_test_data.csv')

print(f'Training set size: {len(train_df)}, test set size: {len(test_df)}')

6、数据处理

# 从csv中读取数据
train_rct1_smi = train_df['Reactant1'].to_list()
train_rct2_smi = train_df['Reactant2'].to_list()
train_add_smi = train_df['Additive'].to_list()
train_sol_smi = train_df['Solvent'].to_list()

# 将SMILES转化为分子指纹
train_rct1_fp = vec_cpd_lst(train_rct1_smi)
train_rct2_fp = vec_cpd_lst(train_rct2_smi)
train_add_fp = vec_cpd_lst(train_add_smi)
train_sol_fp = vec_cpd_lst(train_sol_smi)
# 在dim=1维度进行拼接。即：将一条数据的Reactant1,Reactant2,Product,Additive,Solvent字段的morgan fingerprint拼接为一个向量。
train_x = np.concatenate([train_rct1_fp,train_rct2_fp,train_add_fp,train_sol_fp],axis=1)
train_y = train_df['Yield'].to_numpy()

# 测试集也进行同样的操作
test_rct1_smi = test_df['Reactant1'].to_list()
test_rct2_smi = test_df['Reactant2'].to_list()
test_add_smi = test_df['Additive'].to_list()
test_sol_smi = test_df['Solvent'].to_list()

test_rct1_fp = vec_cpd_lst(test_rct1_smi)
test_rct2_fp = vec_cpd_lst(test_rct2_smi)
test_add_fp = vec_cpd_lst(test_add_smi)
test_sol_fp = vec_cpd_lst(test_sol_smi)
test_x = np.concatenate([test_rct1_fp,test_rct2_fp,test_add_fp,test_sol_fp],axis=1)

7、训练模型

步骤
- 使用 RandomForestRegressor 类创建一个随机森林回归模型实例，并设置相关参数。
- 使用 fit 方法在训练数据上训练模型

# Model fitting
model = RandomForestRegressor(n_estimators=100,max_depth=100,min_samples_split=2,min_samples_leaf=1,n_jobs=-1) # 实例化模型，并指定重要参数
model.fit(train_x,train_y) # 训练模型

关于随机森林模型

集成学习：随机森林通过组合多个决策树的预测结果来提高模型的性能。
随机性：在构建每棵决策树时，随机森林引入了两种随机性：
- 样本随机性：从原始训练集中有放回地随机抽取样本，形成不同的训练子集。
- 特征随机性：在每个节点分裂时，随机选择一部分特征进行评估。
并行处理：每棵决策树的构建是独立的，因此可以并行处理，提高训练效率。

I.构建步骤

样本随机抽样：从原始训练集中有放回地随机抽取样本，形成多个训练子集。
构建决策树：对每个训练子集，构建一棵决策树。在每个节点分裂时，随机选择一部分特征进行评估，选择最优特征进行分裂。
预测结果综合：对于回归任务，通常采用平均法，将所有决策树的预测结果取平均值作为最终的预测结果。

II.优点

高准确性：通过集成多个决策树，随机森林能够有效减少过拟合，提高模型的泛化能力。
鲁棒性：对异常值和噪声数据不敏感，具有较好的鲁棒性。
特征重要性评估：可以评估各个特征的重要性，帮助特征选择。

III.缺点

计算复杂度高：由于需要构建多棵决策树，计算复杂度较高，训练时间较长。
解释性差：相比于单棵决策树，随机森林的解释性较差，难以直观理解模型的决策过程。

8、保存模型

# 保存模型
with open('./random_forest_model.pkl', 'wb') as file:
    pickle.dump(model, file)

9、加载模型

# 加载模型
with open('random_forest_model.pkl', 'rb') as file:
    loaded_model = pickle.load(file)

10、预测

# 预测\推理
test_pred = loaded_model.predict(test_x)

11、保存文件

ans_str_lst = ['rxnid,Yield']
for idx,y in enumerate(test_pred):
    ans_str_lst.append(f'test{idx+1},{y:.4f}')
with open('./submit.txt','w') as fw:
    fw.writelines('\n'.join(ans_str_lst))

Mr_Smlie_000

关注

17
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
2024Datawhale AI 夏令营 3期物质赛道 TASK1

是Python的标准库之一，用于序列化和反序列化Python对象结构。它可以将对象转换为字节流（序列化），以便存储在文件中或通过网络传输，并且可以将其还原为原始对象（反序列化）。
复制链接

扫一扫