论文解读:BERT-Kcr: Prediction of lysine crotonylation sites by a transfer learning method

论文基本情况

作者单位:清华大学生命科学学院、安徽农业大学。
发表期刊情况:《Bioinformatics》,2020年影响因子:6.937。
代码链接: http://zhulab.org.cn/BERT-Kcr_models/
数据链接:http://zhulab.org.cn/BERT-Kcr_models/data

1. 研究背景

赖氨酸巴豆酰化(Lysine Crotonylation, Kcr)是蛋白质翻译后修饰(post-translational modifications,PTMs)一种重要的形式和调节蛋白质发挥生物学功能的重要方式,对发育、代谢、疾病等众多生理过程均起到关键的调控作用,改现象在2011年才由芝加哥大学赵英明教授研究团队发现,刊发于顶级期刊Cell杂志,属于较新的研究方向。针对该问题的研究主要通过实验和计算的方法,实验方法不但昂贵而且耗时。而计算方法可以高效、低成本地预测Kcr的位置。

2. 研究进展

3. 实验数据

3.1 赖氨酸巴豆酰化数据集

原始数据来源:来自于文章《Global crotonylome reveals CDYL-regulated RPA1 crotonylation in homologous recombination-mediated DNA repair》包含3734个蛋白质,14311个Kcr位点,使用CD-HIT设置序列识别阈值为30%去除冗余样本,得到9964个正样本,再从宫颈癌细胞(HeLa cells)获得相同数量的阴性样本。每个样品含有31个氨基酸,赖氨酸(K)位于中间,最终得到:
训练集:正样本为6975个肽(每个肽包含31个氨基酸)和负样本为6975个肽(每个肽包含31个氨基酸)。
在这里插入图片描述
测试集:正样本为2989个肽(每个肽包含31个氨基酸)和负样本为2989个肽(每个肽包含31个氨基酸)。
在这里插入图片描述

3.2 赖氨酸糖化和乙酰化数据集

测试集:正样本为2989个肽的Kcr位点(3.1测试集正样本),负样本为2556个肽的Kgly位点和1485 Kace位点。
Kgly数据集截图
在这里插入图片描述
Kace数据集截图
在这里插入图片描述
备注:这里的Kgly数据集和Kace数据集均为负样本

4. 实验方法

4.1 BERT特征编码

2017年BERT由谷歌的科学家提出,BERT通过在所有编码器层中使用注意机制对左右上下文联合条件作用,预先训练进行双向表示。它以一个单词序列作为输入,不断向上流动的编码器层堆叠。每一层应用自我注意,并将其结果通过前馈神经网络传递交给下一个编码器,如下图所示。

在这里插入图片描述

在这里插入图片描述
BERT模型的框架如下图所示:

4.2 分类器模型

深度学习方法:

  1. Bi-LSTM:一个包含128个隐藏节点并激活ReLU的全连接层,一个dropout率为0.2的dropout层,一个包含2个隐藏节点和softmax激活函数的全连接层,Adam算法作为优化器,损失函数选用交叉熵损失公式。
  2. CNN
  3. FFNN

机器学习方法:

  1. SVM
  2. RF
  3. XGBoost

5. 研究结果

5.1滑动窗口大小的选择

使用NLP模型对肽片段进行编码,需要将肽序列转换成以氨基酸为词的句子,作者使用kmer作为一个单词,其中k从1到7,具体过程如下图所示,其中1个氨基酸的窗口尺寸AUROC值最高为0.915。

在这里插入图片描述

5.2 不同BERT预训练模型比较

在所有预先训练的BERT模型中,选择了5个典型的模型对我们的模型进行再训练进行微调。
5种不同的BERT模型:

  1. BERT-Tiny:440万个参数,2个transformers层和128个隐藏的嵌入。
  2. BERT-Mini:1130万个参数,4个transformers层和256个隐藏的嵌入。
  3. BERT-Small :2910万个参数,4个transformers层,512个隐藏的嵌入。
  4. BERT-Medium:4170万个参数,8个transformers层,512个隐藏的嵌入。
  5. BERT-Base:1.101亿个参数,12个transformers层,768个隐藏的嵌入。

梯度搜索得到每个模型的最优参数:

在这里插入图片描述
最优参数交差验证评估不同模型的性能:
在这里插入图片描述
结论:BERT-Mini, BERT-Small 和 BERT-Medium10折交叉验证的AUROC都是0.918.但是BERT-Mini模型较小,所以采用BERT-Mini作为最终的预训练模型。

预训练对模型的影响:
使用 Swiss-Prot蛋白质序列预训练五个BERT模型,然后采用训练集对模型进行微调,五个模型交叉验证的结果如下图所示:

在这里插入图片描述
结论: BERT-Medium-Prot和BERT-Base-Prot10折交差验证的为AUROC都是0.920,尽管BERT-Mini的QUROC为0.918,但是BERT-Mini模型较小,所以采用BERT-Mini作为预训练模型。

5.3 不同NLP模型比较

BERT和其他两个NLP模型fastText和ELMo。由于目前没有预先训练好的fastText模型,我们直接使用fastText软件,对我们的训练数据集进行训练,并基于10倍交叉验证测试预测性能。此外,ELMo具有预训练的模型,因此我们基于我们的训练数据集对预训练的ELMo模型进行再训练,提取特征,然后将其传递到两层密集网络中,输出二值分类结果。10折交差验证的结果如下表所示:
在这里插入图片描述
结论:BERT模型优于其他两个NLP模型

5.4 BERT模型的优化

transformers层数的影响

在这里插入图片描述
结论:BERT可以从更高层次的输入序列中学习信息特征表示,层数越多能够更加有效的去除噪声,更好的表示蛋白质的特征,四层transformers的BERT-Mini模型能够更好的表示进行特征表示。

为了进一步分析序列信息如何通过BERT模型学习,我们提取并分析了每个序列不同层中不同头部的注意权值。由于进一步利用最后一层CLS令牌的嵌入进行分类,我们计算了其他31个令牌对CLS的注意权值,BERT-Mini模型整体注意力在四个不同的层次上权重如下图所示。
在这里插入图片描述
结论:四层transformers的BERT-Mini模型能够更好的表示进行特征表示,权值更加集中于中心残疾。

基于整个训练数据集的正负序列之间的Two Sample Logo图。计算了31个位置的整体注意权重与耗尽剩余频率之间的相关系数。相关系数分别为0.109、0.523、0.369和为四层,分别为0.629。
在这里插入图片描述
结论:序列信息可以在高层用注意力权重表示。

5.5 分类器的比较

将预先训练的BERT-Mini模型提取的特征,将得到的特征输入到SVM、RF、XGBoost、CNN、BiLSTM和FFNN六个分类器中,得到以下结果。
在这里插入图片描述
**结论:**综合分析BERT_BiLSTM能取得更优的结果。

从经过微调的BERT- mini模型中提取向量表示,然后将其输入到下游的深度学习层,从而对BERT编码器和下游的深度学习层的参数进行微调,得到下图结果。
在这里插入图片描述
结论:微调并没有能够提升模型的预测效果。

5.6 独立测试比较

为了进一步评估我们的模型的性能,我们将我们的模型的预测结果与其他几个Kcr站点预测器(如基于位置权重的方法)进行了比较。
在这里插入图片描述
结论:BERT-Kcr预测性能优于Deep-Kcr等四种工具。
根据BERT-Kcr (BERT_BiLSTM)等方法在独立测试集上的预测结果绘制ROC和PRC图:
在这里插入图片描述
结论:与其他先进的方法相比,我们的BERT-Kcr模型在检测蛋白Kcr位点方面显示出了令人印象深刻的预测和识别能力。

5.7 检验模型泛化能力

赖氨酸糖基化(Kgly)和乙酰化(Kace)位点作为负样本,独立检测数据中的赖氨酸crotonylation (Kcr)位点作为正样本,从而得到一个新的测试集,利用得到新的测试集测试Kcr训练的模型得到下图结果。

在这里插入图片描述
结论:新构造的测试集负样本的数据没有被模型学到,所以导致独立测试的结果差于5.6的结果,但是BERT-Kcr依然好于其他算法。

独立测试集和赖氨酸糖基化(Kgly)和乙酰化(Kace)位点作为负样本的比较。
在这里插入图片描述

6. 结论

  1. 利用BERT-Mini预训练模型提取特征,再用BiLSTM作为分类器来预测Kcr位点
  2. 微调对作者的工作并没有帮助
  3. 从其他更高的编码器层或更高的编码器层组合中提取特征,也可能在未来的努力中改进Kcr位点预测。

7. 启发

  1. 微调不一定能够提升最终的预测效果
  2. 对于深度学习可以尝试使用BiLSTM作为最终的分类器
  3. 通过Two Sample Logo map可视化领域信息的重要性
  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值