概念
- (序列同源性):蛋白质没有统计上的显著一致性,但他们可能是同源的,共有一个进化的祖先
- 梯度分析:从连续体的角度出发, 对景观要素和生态流的空间分布梯度特征进行研究的方法。
- 表征:表征,是信息在头脑中的呈现方式,是信息记载或表达的方式,能把某些实体或某类信息表达清楚的形式化系统以及说明该系统如何行使其职能的若干规则。因此,我们可以这样理解,表征是指可以指代某种东西的符号或信号,即某一事物缺席时,它代表该事物
- 转录因子:转录因子是一种序列特异的DNA结合蛋白,它负责调节一组特定基因的转录,从而调节细胞中的基因表达。
- 作用: 促进或阻断RNA聚合酶以调节一组基因的转录速度,当外部环境发生变化时,转录因子通过调节RNA聚合酶以达到对外界的响应。
- 转录因子通常预测方法:通常通过分析与已表征的TF的DNA结合域的序列同源性来预测TF。
- 转录因子通常方法的局限性:没有报道的转录因子难以预测,因为不知道转录因子的DNA序列结合域的序列。
其他研究方向
- 机器学习
- 机器学习预测转录因子
- 特点:该方式依赖于领域专业知识,分子的物理化学性质的计算和生物序列的同源性分析
- 深度学习
- 通过深度学习,获取潜在特征,来解决生物问题
- DEEPEC 使用深度学习来识别酶的数量与高速下的高精度
- 特点:虽然深度学习的方式功能强大,但是近乎黑盒子的模式,无法对过程进行直接解释,但是现在已经设计了几种可以解释的深度学习模型。
- 显著性方法计算预测分数相对于输入的梯度,以将深度学习模型聚焦的地方可视化,可以解释深度学习模型用于视觉理解。
- 一致性方法也被用于解释生物学问题的深度学习模型,例如预测RNA结合蛋白的结合位点。
- 预测蛋白质构象的势能函数
内容
DeepTFactor工作原理:使用卷积神经网络来提取蛋白质的特征,其特征分别为DNA结合结构域的序列同源性、其他潜在特征。
原理
3个卷积层 => 池化层 => 全链接层 同卷积神经网络
验证
通过积分梯度的方式跟踪数据从输入到输出。