-
导入库:首先,代码导入了需要用到的库,包括
pandas
(用于数据处理和分析),scikit-learn
(机器学习库),rdkit
(化学信息工具)。 -
读取数据:代码通过使用
pd.read_csv
函数从文件中读取训练集和测试集数据。 -
使用Morgan分子指纹建模SMILES:
- 这个过程需要调用rdkit的相关模块。然后将Reactant1,Reactant2,Product,Additive,Solvent字段的向量拼接到一起,组成一个更长的向量。
使用随机森林预测结果:
- 这里直接调用sklearn
的RandomForestRegressor
模块实例化一个随机森林模型,并对n_estimators
等重要参数进行指定。最后使用model.fit(x, y)训练模型。模型保存在本地'./random_forest_model.pkl'
。
加载模型进行预测,并将保存结果文件到本地:
-
pkl
文件直接使用pickle.load()
加载,然后使用model.predict(x)
进行预测。预测的结果保存为比赛官方指定的文件格式。
感想:
本以为会很复杂,不过跟着教程一步一步来,很顺利的就跑通了,加油!