2024Datawhale AI 夏令营 3期 物质赛道 TASK1

        这是我第二次参加,2024Datawhale AI 夏令营,可以明显感受到,相较于二期时的氛围而言,三期的氛围更加的好,代码的优化思路更加多。下面简单讲一下这几天的见过的一下简单问题以及个人对于baseline代码的理解。


可能存在的问题


        首先是我见过的问题,最常见的问题是魔搭平台打不开或者中途出现问题,。

        前者可以自己检查一下是否开启了魔法(懂得都懂),更换浏览器、清理浏览器缓存或者重启电脑来进行解决。

        后者可如果是在运行到一半是直接崩溃那就没有办法;如果是出现文件因为路径问题而导致的代码无法正常运行,请静下心来认真检查路径并做出修改,不要出现一边改代码中的路径一边改变文件位置的情况,可能会导致一直无法指定到正确的地址。


个人对baseline的理解

1、环境配置

        本人建议直接使用pycharm (本地部署)或者直接使用官方提供的  ,如果有一定的基础,也可以自行选择方式。

        魔搭直接按照教程就好了,这里不再赘述。pycharm的话可以自行选择是安装普通的Python(还要独立安装Jupyter,后面pycharm虚拟解释器一键安装即可)还是直接安装anaconda(直接带有Jupyter),并配置对应环境(可以直接搜索,网络上都有)。

2、安装库

为了防止小白不会操作,baseline中已经配置好了安装库的代码,只要一键执行即可,中间可能会出现报错,但是可以忽视,不会影响运行。

!pip install pandas
!pip install -U scikit-learn
!pip install rdkit

3、导入库

接下来的代码导入了运行时必要的库:

import pickle
import pandas as pd
from tqdm import tqdm
from sklearn.ensemble import RandomForestRegressor
from rdkit.Chem import rdMolDescriptors
from rdkit import RDLogger,Chem
import numpy as np

RDLogger.DisableLog('rdApp.*')

库作用介绍 

        pickle 是Python的标准库之一,用于序列化和反序列化Python对象结构。它可以将对象转换为字节流(序列化),以便存储在文件中或通过网络传输,并且可以将其还原为原始对象(反序列化)。

        pandas 是一个强大的数据处理和分析库,提供了高效的数据结构(如DataFrame)和数据分析工具。

        tqdm 是一个快速、可扩展的Python进度条库,可以在循环或迭代过程中显示进度。tqdm 可以包裹任何可迭代对象,并在循环过程中显示进度条。

        sklearn(Scikit-learn)是一个用于机器学习的Python库。RandomForestRegressor 是 sklearn.ensemble`模块中的一个类,用于实现随机森林回归模型。

        RDKit 是一个用于化学信息学的开源库。rdMolDescriptors 模块提供了多种分子描述符的计算功能,可以用于计算分子的各种物理化学性质和结构特征。RDLogger 是 RDKit 中的一个模块,用于控制日志记录。`Chem 模块包含了处理化学分子和反应的核心功能。

        numpy 是一个用于科学计算的Python库,提供了支持大规模多维数组和矩阵运算的功能。

关于 RDLogger.DisableLog('rdApp.*'):

        这行代码用于禁用 RDKit 的所有日志记录,从而减少输出中的冗余信息(防止刷屏)。

4、转换为分子指纹

mfgen 用于生成Morgan指纹,其中:

  • 参数
    • mol :RDKit的分子对象。
    • nBits:指纹的位数。
    • radius:Morgan指纹的半径。
def mfgen(mol,nBits=2048, radius=2):
    # 返回分子的位向量形式的Morgan fingerprint
    fp = rdMolDescriptors.GetMorganFingerprintAsBitVect(mol,radius=radius,nBits=nBits)
    return np.array(list(map(eval,list(fp.ToBitString()))))

vec_cpd_lst 将SMILES列表转换为分子指纹向量列表。

  • 参数
    • smi_lst:SMILES字符串列表。
  • 步骤
    1. 去重SMILES列表。
    2. 使用 tqdm 显示示进度条,遍历去重后的SMILES列表。
    3. 将每个SMILES字符串转换为RDKit分子对象,并生成其Morgan指纹。
    4. 将生成的指纹存储在字典 。
    5. 为空SMILES字符串添加一个全零的指纹 smi_vec_map。
    6. 根据原始SMILES列表生成指纹向量列表,并返回。
# 加载数据
def vec_cpd_lst(smi_lst):
    smi_set = list(set(smi_lst))
    smi_vec_map = {}
    for smi in tqdm(smi_set): # tqdm:显示进度条
        mol = Chem.MolFromSmiles(smi)
        smi_vec_map[smi] = mfgen(mol)
    smi_vec_map[''] = np.zeros(2048)
    
    vec_lst = [smi_vec_map[smi] for smi in smi_lst]
    return np.array(vec_lst)

5、加载数据

dataset_dir = '../dataset'   # # 注:如果是在AI Studio上,将这里改为'dataset'

train_df = pd.read_csv(f'{dataset_dir}/round1_train_data.csv')
test_df = pd.read_csv(f'{dataset_dir}/round1_test_data.csv')

print(f'Training set size: {len(train_df)}, test set size: {len(test_df)}')

6、数据处理

# 从csv中读取数据
train_rct1_smi = train_df['Reactant1'].to_list()
train_rct2_smi = train_df['Reactant2'].to_list()
train_add_smi = train_df['Additive'].to_list()
train_sol_smi = train_df['Solvent'].to_list()

# 将SMILES转化为分子指纹
train_rct1_fp = vec_cpd_lst(train_rct1_smi)
train_rct2_fp = vec_cpd_lst(train_rct2_smi)
train_add_fp = vec_cpd_lst(train_add_smi)
train_sol_fp = vec_cpd_lst(train_sol_smi)
# 在dim=1维度进行拼接。即:将一条数据的Reactant1,Reactant2,Product,Additive,Solvent字段的morgan fingerprint拼接为一个向量。
train_x = np.concatenate([train_rct1_fp,train_rct2_fp,train_add_fp,train_sol_fp],axis=1)
train_y = train_df['Yield'].to_numpy()

# 测试集也进行同样的操作
test_rct1_smi = test_df['Reactant1'].to_list()
test_rct2_smi = test_df['Reactant2'].to_list()
test_add_smi = test_df['Additive'].to_list()
test_sol_smi = test_df['Solvent'].to_list()

test_rct1_fp = vec_cpd_lst(test_rct1_smi)
test_rct2_fp = vec_cpd_lst(test_rct2_smi)
test_add_fp = vec_cpd_lst(test_add_smi)
test_sol_fp = vec_cpd_lst(test_sol_smi)
test_x = np.concatenate([test_rct1_fp,test_rct2_fp,test_add_fp,test_sol_fp],axis=1)

7、训练模型

  • 步骤
    • 使用 RandomForestRegressor 类创建一个随机森林回归模型实例,并设置相关参数。
    • 使用 fit 方法在训练数据上训练模型

# Model fitting
model = RandomForestRegressor(n_estimators=100,max_depth=100,min_samples_split=2,min_samples_leaf=1,n_jobs=-1) # 实例化模型,并指定重要参数
model.fit(train_x,train_y) # 训练模型

关于随机森林模型

  1. 集成学习:随机森林通过组合多个决策树的预测结果来提高模型的性能。
  2. 随机性:在构建每棵决策树时,随机森林引入了两种随机性:
    • 样本随机性:从原始训练集中有放回地随机抽取样本,形成不同的训练子集。
    • 特征随机性:在每个节点分裂时,随机选择一部分特征进行评估。
  3. 并行处理:每棵决策树的构建是独立的,因此可以并行处理,提高训练效率。

I.构建步骤

  1. 样本随机抽样:从原始训练集中有放回地随机抽取样本,形成多个训练子集。
  2. 构建决策树:对每个训练子集,构建一棵决策树。在每个节点分裂时,随机选择一部分特征进行评估,选择最优特征进行分裂。
  3. 预测结果综合:对于回归任务,通常采用平均法,将所有决策树的预测结果取平均值作为最终的预测结果。

II.优点

  1. 高准确性:通过集成多个决策树,随机森林能够有效减少过拟合,提高模型的泛化能力。
  2. 鲁棒性:对异常值和噪声数据不敏感,具有较好的鲁棒性。
  3. 特征重要性评估:可以评估各个特征的重要性,帮助特征选择。

III.缺点

  1. 计算复杂度高:由于需要构建多棵决策树,计算复杂度较高,训练时间较长。
  2. 解释性差:相比于单棵决策树,随机森林的解释性较差,难以直观理解模型的决策过程。

8、保存模型

# 保存模型
with open('./random_forest_model.pkl', 'wb') as file:
    pickle.dump(model, file)

9、加载模型

# 加载模型
with open('random_forest_model.pkl', 'rb') as file:
    loaded_model = pickle.load(file)

10、预测

# 预测\推理
test_pred = loaded_model.predict(test_x)

11、保存文件

ans_str_lst = ['rxnid,Yield']
for idx,y in enumerate(test_pred):
    ans_str_lst.append(f'test{idx+1},{y:.4f}')
with open('./submit.txt','w') as fw:
    fw.writelines('\n'.join(ans_str_lst))

  • 17
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值