SyntaLinker基于片段的分子生成模型复现具体步骤

源码出处:之前已经写过

首先这个代码有很多bug,需要慢慢修复
解决Importrror:主要原因是代码内部有很多引用模块,遇到这个问题可以用延迟引用,或者重构代码的模块(比较困难哈),我用的第一种,别人已经写好的代码重构会有很多改变,建议不要这么做
复现SyntaLinker:查看readme文件
第一步:创建环境:这里不详细叙述,有环境文件,直接用conda env create -f environment.yml创建,环境名SyntaLinker  避雷提醒:在安装环境时最好看一看自己的服务器配置,如果torch和cuda版本不对应是用不起来的,如果有的包安装不上建议从环境文件中删除,单独安装
第二步:进入环境: conda  activate SyntaLinker
第三步:预处理,对于输入文件进行预处理,bash  preprocess.sh
输出文件在:* saving 0th valid data shard to data/ChEMBL/.valid.0.pt.
第四步:训练,开始模型训练,bash training.sh
-save_checkpoint_steps 1000  -train_steps 10000 ,这两个训练的参数经过了缩小,原来是训练50万步,每1万步保存一次
第五步:为了达到最好的结果,取最后10次的训练模型进行优化,bash average_models.sh
注:第四步和第五步的结果在./checkpoints/ChEMBL中
第六步:测试,为了生成分子用translate.py,其中需要注意:这个文件中有几个参数需要自己定义,
后面定义训练过程的参数-model checkpoints/ChEMBL/ChEMBL_model_average.pt -src data/ChEMBL/tgt-test.txt -output /predictions__ChEMBL_model_average.pt_on_ChEMBL_beam10.txt -batch_size 64 -replace_unk -max_length 200 -beam_size 10 -verbose -n_best 10
在复现过程中可以适当缩小,后面跑通再恢复,-src可以是自己的数据集
python translate.py -model checkpoints/ChEMBL/ChEMBL_model_average.pt -src data/ChEMBL/tgt-test.txt -output /predictions__ChEMBL_model_average.pt_on_ChEMBL_beam10.txt -batch_size 64 -replace_unk -max_length 200 -beam_size 10 -verbose -n_best 10
python translate.py -model checkpoints/ChEMBL/ChEMBL_model_average.pt -src data/ChEMBL/tgt-test.txt -output checkpoints/predictions_beam10.txt -batch_size 2 -replace_unk -max_length 5 -beam_size 5 -verbose -n_best 5
$testing_beam_search.sh这个文件因为一些原因没能运行起来。
第七步:评价,一些指标, bash recovery.sh,用上面的输出文件predictions__ChEMBL_model_average.pt_on_ChEMBL_beam10.txt 作为输入
到此结束

关于数据的一些问题:在代码压缩包中作者并没有给原始数据,因为这项工作他们之前做过了,所以直接给的处理后的数据,如果有需要自己处理原始数据需要去Utils文件家中有两个mmps算法的文件。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
attngan是一种新颖的文本生成图像模型,它可以根据输入的文本描述生成对应的图像。在复现attngan的代码之前,首先需要准备好相关的环境和数据集。 步骤一:环境准备 1. 安装Python和相关依赖库,建议使用Anaconda进行环境管理。 2. 下载attngan的源代码和预训练模型。 步骤二:数据集准备 1. 获取用于训练和测试的文本描述数据集,可以使用自己的数据集或者公开的数据集。 2. 准备对应的图像数据集,确保每个文本描述对应有一张或多张图像。 步骤三:代码中的细节 1. 确保代码中的路径设置正确,包括数据集路径、预训练模型路径等。 2. 注意文本描述和图像数据的对应关系,确保它们能够正确匹配。 步骤四:模型训练 1. 根据attngan的文档和示例代码,开始进行模型的训练,调整超参数和训练策略。 2. 监控模型的训练过程,确保模型能够收敛并取得良好的效果。 步骤五:模型测试 1. 使用训练好的模型进行图像生成,可以选择一些文本描述进行测试,观察生成的图像质量。 2. 根据生成图像的效果,调整模型的参数或者数据集的准备方式,进行进一步的优化和调整。 避坑指南: 1. 注意数据集的质量和多样性,确保文本描述和图像的多样性和丰富性。 2. 在训练过程中,遇到训练时间过长或者模型不收敛的情况时,可以尝试调整学习率、增大数据集、简化模型结构等方法进行优化。 3. 注意预训练模型的选择和使用,可以根据自己的需求选择合适的预训练模型进行Fine-tuning。 通过以上步骤和避坑指南,可以较为顺利地复现attngan的代码,并成功进行文本生成图像的实验和应用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值