Smiles2vec
简而言之,它是自然语言处理(NLP)领域的一项技术,可将字符串转换为向量。许多人用SMILES字符串预测物理属性。
SMILES:(Simplified molecular input line entry system)通过将分子化学结构转换为字母数字字符串而表示结构的方法。
将化学结构信息作为输入变量和物理属性作为输出变量进行预测。
Smiles2vec架构
将字符串转换为矢量是NLP领域的一项名为Seq2Seqd的技术。在没有学习的情况下简单地解释它,它经常被用在“机器对话和机器翻译等模型”中。该技术基于递归神经网络的思想使用诸如LSTM和GRU的层。下图显示了原始论文中Smiles2vec的结构。本文根据化合物结构和物理性质改变层的内容。
导入库
from __future__ import print_function
import keras
from sklearn.utils import shuffle
from keras.models import Sequential, Model