MolTC 开源项目教程
MolTC 项目地址: https://gitcode.com/gh_mirrors/mo/MolTC
1. 项目介绍
MolTC(Molecular Relational Modeling in Language Models)是一个专注于分子关系建模的语言模型项目。该项目由Junfeng Fang、Shuai Zhang、Chang Wu、Zhengyi Yang、Zhiyuan Liu、Sihang Li、Kun Wang和Xiang Wang共同开发,并已被ACL2024会议接受。MolTC旨在通过语言模型来识别和建模分子间的关系,适用于药物相互作用(DDI)和溶剂化吉布斯自由能预测等任务。
2. 项目快速启动
2.1 环境准备
首先,确保你已经安装了Anaconda。然后,通过以下命令创建一个新的Anaconda环境:
conda env create -f environment.yml
2.2 数据准备
下载所需的数据集和预训练模型,并将其放置在相应的文件夹中:
- 数据集:Drugbank、ZhangDDI、ChChMiner、DeepDDI、TWOSIDES、CombiSolv-QM、CompSol、FreeSolv、Abraham、CombiSolv
- 预训练模型:galactica-1.3b、gin_pretrained、bert_pretrained
2.3 预训练阶段
执行以下命令进行预训练:
python q-former.py
python stage2.py --root 'qformer_data/train/' --devices '4,5' --valid_root 'qformer_data/val/' --filename "stage2" --stage2_path "all_checkpoints/pretrain1/last.ckpt" --opt_model 'facebook/galactica-1.3b' --max_epochs 10 --mode pretrain --prompt '[START_I_SMILES][][END_I_SMILES] ' --tune_gnn --llm_tune freeze --inference_batch_size 2 --double True --batch_size 16
2.4 数据处理
对Drugbank、ZhangDDI、ChChMiner、DeepDDI、TWOSIDES数据集进行数据处理:
python drugbank_ddi.py
python ZhangDDI.py
python ChChMiner.py
python DeepDDI.py
python twosides.py
2.5 模型训练
执行以下命令进行模型训练:
python stage2.py --root 'data/ddi_data/drugbank/train/' --valid_root 'data/ddi_data/drugbank/valid/' --devices '2,3' --filename "ft_ddi_value_stage2_new" --stage2_path "all_checkpoints/stage2/last.ckpt" --opt_model 'facebook/galactica-1.3b' --max_epochs 100 --mode ft --prompt '[START_I_SMILES][][END_I_SMILES] ' --tune_gnn --llm_tune lora --inference_batch_size 4 --save_every_n_epochs 10 --batch_size 36 --DDI True --caption_eval_epoch 50 --max_len 30 --init_checkpoint "all_checkpoints/stage2/last.ckpt"
3. 应用案例和最佳实践
3.1 药物相互作用预测
MolTC在药物相互作用(DDI)预测中表现出色。通过预训练和微调,模型能够准确识别药物之间的潜在相互作用,为药物研发提供有力支持。
3.2 溶剂化吉布斯自由能预测
在溶剂化吉布斯自由能预测任务中,MolTC通过预训练模型直接预测,避免了在小数据集上的过拟合问题,提高了预测的准确性。
4. 典型生态项目
4.1 药物研发平台
MolTC可以集成到药物研发平台中,用于药物相互作用和溶剂化吉布斯自由能的预测,加速新药的研发进程。
4.2 化学信息学工具
MolTC可以作为化学信息学工具的一部分,用于分子关系建模和预测,为化学研究提供强大的计算支持。
通过以上步骤,你可以快速启动MolTC项目,并将其应用于实际的药物研发和化学研究中。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考