Paper Killer-2018

本文介绍了2018年关于矩阵分解在药物靶点预测中的应用,如KBMF2K、KBMF、CMF、NRLMF等模型,详细探讨了模型构建、解调和验证过程。同时,提到了Ensemble Clustering中的MVEC方法,以及在模型评估中使用的方法,如交叉验证和性能度量。文章强调了正则化、核方法和相似性得分在模型优化中的作用,并指出未来需要改进的方向,如算法实现、数学基础和算法比较。
摘要由CSDN通过智能技术生成

2018.Oct of Matrix Factorization


KBMF2K - M.gonen, 2012


Model

model flow chart

(drug specific)K: Nd*Nd Kernel matrix     Λ: Nd*R Prior matrix    A: Nd*R projection matrix    G: R*Nd projected matrix   F: Nd*Nt Score matrix    Y: Nd*Nt associated interaction matrix

parameter design

upgrade algorithm

α-shape parameter of gamma distribution  β-scale parameter of gamma distribution  ν-margin parameter

Notation

R: {5, 10, 15, 20, 25}    ν: {0, 1}    α=1    β=1    σ=0.1    Kd - SIMCOMP score    Kt - Smith-waterman score


Demodulation

to be continued...


Validation

Point estmates of probabilistic estimates instead of interval estimate cause the variances of estimates is very small.

Predictiing performance

Five fold cross validation repeated five times -- average method: Macro

 


Mark Down

1、marginal likelihood

2、conditional distribution

3、Kullback-Leibler Divergence

详情请见:如何理解K-L散度(相对熵)

统计学上,常会用一个更简单的近似分布q来替代复杂的分布p。这会涉及三个问题:(1)怎样定义两个分布“接近” (2)如何选择合适的分布模型 (3)找到合适的模型后如何调制合适的模型参数(这里不作展开讨论)

首先,我们需要用到信息熵这个工具。熵和信息论有许多关联,是重要的信息度量单位。可以理解为编码信息所需要的最少位数,或者某个事件的信息量。

Entropy

        对于某个事件xi,将其看为多个独立二元事件aj(j=1,2,...,n)的组合,即p(xi)=∏p(a1)p(a2)...p(an)。可直观地看到,对应这个假设,上式的对数取2,那么描述p(xi)的二进制编码位数n就求得了。上式也可以说明为什么事件的概率越小,其包含的信息越多。然后再对每个子事件加权求和,事件X的信息量(或平均编码长度),就得到了。

有了上面的指标,我们就能用K-L散度来度量p被q替代后损失的信息。DKL(p||q)=H(q)-H(p)

entropy-p-q

DKL1

DKL2

        KL散度-相对熵(relative entropy)能看作信息差的期望。

要注意:该期望是基于p(xi)求的,因为事件真实的概率分布是p(xi)而不是q(xi)。所以DKL(p||q)=DKL(q||p)是不成立的。不能简单地将其看作距离。

另外附一DKL的平滑方法

▲总结一个规律:(p为双峰高斯分布,q为单峰高斯分布)用KL(q||p)做最优化,是希望p(x)为0的地方q(x)也要为0,否则q(x)/p(x)就会很大;反之,如果用KL(p||q)做最优化,就要尽量避免p(x)不为0而q(x)用0去拟合的情况,或者说p(x)不为0的地方q(x)也不要为0。

4、variational approximation using Gibbs sampling [Gelfand and Smith, 1990] -- verse deterministic variational approximation [Beal, 2003]    

5、Jensen's inequality

6、Automatic relevance determination [Neal,1996]

7、Similarity score of compound

⚪Smith-Waterman s

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值