摘要:
卤醇脱卤酶是一类重要的蛋白质,它不仅能通过开环反应催化有毒污染物的降解,还能作为亲核试剂促进高价值药物中间体的生成.卤醇脱卤酶在自然界中的分布极为稀少,目前仅在少数菌株中发现过卤醇脱卤酶酶活性的表达.已有的生成卤醇脱卤酶的生物实验虽然可行,但存在成本高昂且效率过低的问题.因此,根据已测定的卤醇脱卤酶序列高效挖掘更多的新卤醇脱卤酶序列,丰富已有的卤醇脱卤酶数据集的需求显得尤为迫切.另一方面,深度生成模型在图像处理,语音识别和文本生成领域都取得了令人惊喜的成果,但在生物序列方面的应用仍然存在较大的空白.综合考虑以上两个因素,本文提出了一种新的研究思路——将深度生成模型应用于新型卤醇脱卤酶序列挖掘研究之中.为实现新卤醇脱卤酶序列的挖掘,本文首先根据已有相关的序列知识构建卤醇脱卤酶数据集,然后识别卤醇脱卤酶序列中的模体,再使用深度生成模型生成新卤醇脱卤酶序列,最后建立分类模型对生成的序列进行挖掘预测.本文主要内容及创新点如下:1)提出了将模体的判别能力考虑在内的模体识别算法.使用已有的MEME算法识别卤醇脱卤酶正样本包含的模体后,计算模体的判别式评分特征(MSC,MOR和MRE),并据此筛选过滤在卤醇脱卤酶正负样本中分布差异过小的模体.2)将深度生成模型应用于卤醇脱卤酶序列生成任务.本文首先使用LSTM网络生成卤醇脱卤酶序列,因为LSTM生成的卤醇脱卤酶序列的多样性差,序列长度过短,因此改用在文本生成领域取得了显著成就的SeqGAN模型进行序列生成,并在传统的SeqGAN模型中加入一个反馈回路以指导判别器的训练.SeqGAN模型生成的序列在序列多样性方面较LSTM有一定的改进,但其序列长度仍存在着均值过低,标准差过大的问题;为解决这一问题,本文使用在长文本生成领域有出色表现的LeakGAN模型作为序列生成模型,在传统模型的基础上为其加入了一个反馈回路以提高生成的序列的质量,实验结果表明改进后的LeakGAN模型能够高效生成具有生物学意义的卤醇脱卤酶序列.3)提出了一个可对生成的卤醇脱卤酶序列实行高效分类的判别模型.首先建立g-gap特征树确定需要提取的特征,再将从序列信息中提取出来的特征进行选择及离散化,最后使用多项式朴素贝叶斯模型对带反馈回路的LeakGAN模型生成的卤醇脱卤酶序列进行功能预测.
展开