探索化学新纪元： ChemBERTa——化学界的新一代预训练模型

最新推荐文章于 2024-12-05 14:49:06 发布

廉欣盼Industrious

最新推荐文章于 2024-12-05 14:49:06 发布

阅读量1.9k

点赞数 7

本文链接：https://blog.csdn.net/gitblog_00031/article/details/138559822

版权

探索化学新纪元： ChemBERTa——化学界的新一代预训练模型

bert-loves-chemistry bert-loves-chemistry: a repository of HuggingFace models applied on chemical SMILES data for drug design, chemical modelling, etc. 项目地址: https://gitcode.com/gh_mirrors/be/bert-loves-chemistry

1、项目介绍

ChemBERTa是一个创新的项目，它将流行的BERT模型应用到化学领域，尤其是处理SMILES（简化分子输入线路语）数据。这个项目旨在推动药物设计、化学建模和性质预测的进步，并已在多个学术会议上展示，包括Baylearn和Royal Society of Chemistry's Chemical Science Symposium。

2、项目技术分析

ChemBERTa基于RoBERTa模型，该模型在任务掩码语言建模（MLM）上进行了预训练。在ZINC 250k数据集上，模型经过10个周期的训练，直到损失收敛到约0.26。通过HuggingFace，可以访问不同规模的预训练模型，如ZINC 100k、PubChem 100k等。未来还计划发布更大规模的模型，预先训练在ZINC、CHEMBL和PubChem的更大子集上。

3、应用场景

ChemBERTa在化学领域的应用广泛，包括但不限于：

药物发现：利用预训练模型进行药物属性预测，加速药物研发过程。
化学合成路径规划：借助Transformer的语义理解能力，推理出最有效的合成路线。
化学信息学：用于大规模化学数据库的挖掘与分类，提取关键信息。
化学研究：辅助研究人员解析复杂化学反应和化合物结构。

4、项目特点

预训练模型：提供了在多种化学数据集上预训练的模型，便于快速应用。
易于使用：通过简单的代码即可加载预训练的Tokenizer和模型进行预测任务。
持续更新：项目维护团队致力于添加新的功能、更大的模型和更多的应用示例。
开放源代码：采用MIT许可，鼓励开发者、学生和研究者贡献代码和想法。

例如，以下代码可加载预训练的ChemBERTa模型进行掩码词汇填充任务：

from transformers import AutoModelWithLMHead, AutoTokenizer, pipeline

model = AutoModelWithLMHead.from_pretrained("seyonec/ChemBERTa-zinc-base-v1")
tokenizer = AutoTokenizer.from_pretrained("seyonec/ChemBERTa-zinc-base-v1")

fill_mask = pipeline('fill-mask', model=model, tokenizer=tokenizer)

ChemBERTa 是一个强大的工具，为化学领域带来了深度学习的最新进展。无论是初学者还是经验丰富的专家，都能从中受益并探索新的科学边界。现在就加入我们，一起开启化学智能化的新篇章！