信息论与编码_生物信息学中的信息论基础（二）

最新推荐文章于 2020-12-16 09:53:30 发布

weixin_39725756

最新推荐文章于 2020-12-16 09:53:30 发布

阅读量231

点赞数

文章标签：信息论与编码

本文链接：https://blog.csdn.net/weixin_39725756/article/details/111582816

版权

大家好，我是你们的小徐同学，目前本科四年级生物技术专业在读，我们又见面了。上一次，我们在一起进行了第一次信息论基础的学习(《生物信息学中的信息论基础(一)》)，详情可见：

生物信息学中的信息论基础(一)

这一次，我将带领大家继续了解一下生物信息学中的信息论，这一次将给大家举更多的生物信息学中的小例子。

1.简单的回顾

上一次我们主要是成功引入了信源总体信息测度的公式——信息熵。信息熵是从总体上、从平均意义上表示信源X每一个符号(不论哪一个符号)所含有的平均信息量(或信源发送信息前，每一个符号的平均不确定性)，见公式1。在最后我们还知道了我们平时在做motif calling时，得到bits值背后的数学原理()。

比特

所以，首先我再给大家带来一个在组学数据分析中，信息熵的应用实例。我们有时在处理转录组数据时，会遇到鉴定组织特异性基因的场景。当然，不同的研究方法有不同的解决方式，有的研究者通过公式()，计算一个相对值，再根据个人需求取一个阈值，把高于某阈值的基因设定为特异性基因(当然，我认为这种方法是不全面的，因为组织特异性基因可以分为三种：1、'up-type'基因仅在一小部分组织过表达；2、'down-type'基因仅在一小部分组织低表达；3、 'mixed-type'选择性的在某些组织过表达，某些组织低表达。)。今天，我们将介绍一种结合信息熵以及Z变换的方法能同时鉴定以上三种组织特异性基因的方法。

这个方法的基本思想就是，利用信息熵探究样本之间表达值的集中度，利用离群值鉴定特异性基因。说道这里，想必大家已经大概清楚应该怎么做了，首先假定分别代表n个组织的某基因表达水平，利用公式2,3计算每一个基因的表达水平在n个组织的熵值，这里当熵值小时，代表数据的不确定性低，熵值大时，代表数据的不确定性高，因此我们需要卡一个最大熵值的阈值。

接着，我们对我们表达数据进行一个Z变化，这里得到的数据可以选取一个合适的阈值作为离群值的阈值，根据信息熵和Z-scores综合提供的信息，我们就可以鉴定出组织特异性基因。当然，我这里只是简单的把原理给大家讲解了一下，具体内部还是有一些细节的，建议感兴趣的同学可以自行阅读文献(Kadota, K., Ye, J., Nakai, Y. et al. ROKU: a novel method for identification of tissue-specific genes. BMC Bioinformatics 7, 294 (2006). https://doi.org/10.1186/1471-2105-7-294)去进一步了解。

2.相对熵(K-L散度)

相对熵，又称KL散度( Kullback–Leibler divergence)，是描述两个概率分布P和Q差异的一种方法。在信息论中，D(P||Q)表示当用概率分布Q来拟合真实分布P时，产生的信息损耗，其中P表示真实分布，Q表示P的拟合分布。有人将K-L散度称为K-L距离，认为K-L散度描述了不同分布之间的距离。但事实上，K-L散度并不满足距离的概念，因为度量距离应该满足对称性，而显然K-L散度并不对称，公式见4。

上面我们讲了好大一段的理论的话，感觉可能还是不是很直观，下面我举一个简单的例子带着大家直观的感受一下。

假设，我们现在在火星种玉米(这只是假设假设)，一个生长周期结束了，我们得到了玉米产量的数据，见图1。我们现在需要把火星上的数据传送回地球，最好的结果就是按照原本什么样子就怎样传送过来。但是不巧的是，假设数据传送成本非常非常大，直接传送数据虽然准确，但因为成本太大了，我们难以承受。因此，我们就想，能不能使用一个模型，这样只需传递模型和几个模型参数，我们就能得到玉米产量的大概分布，而且传送成本也得以控制。

假设，我们现在想用泊松分布和二项分布去近似原始数据，二项分布的p=0.55，泊松分布的lambda=2.75，得到的结果见图2.

图2：原始分布，二项分布近似原始分布，泊松分布近似原始分布结果。

接着，我们利用K-L散度计算两种模型的信息损失量：

所以，我们发现用二项分布近似原始分布的信息损失量比用泊松分布近似原始分布的信息损失量小，因此，当我们在考虑二项分布和泊松分布时，较优的一个选择是二项分布。

以上这些分析的R代码如下：

##加载ggplot2用于图1，图2的绘制
library(ggplot2)
##生成五个数据
kg1 = 392285
kg2 = 533387
kg3 = 431506
kg4 = 345441
kg5 = 244427
maize_yield = c(kg1,kg2,kg3,kg4,kg5)
names.maize_yield = c("1mkg","2mkg","3mkg","4mkg","5mkg")
names(maize_yield) = names.maize_yield
##制作成表格
maize_data '''
   Type maize_yield
1mkg 1mkg      392285
2mkg 2mkg      533387
3mkg 3mkg      431506
4mkg 4mkg      345441
5mkg 5mkg      244427
'''
##绘制图1
ggplot(maize_data,aes(names.maize_yield,maize_yield)) + geom_bar(stat = 'identity')
##采用二项分布和泊松分布估计，制作新的表格
maize_new_data 3),maize_yield=c(as.numeric(maize_data[,2]),dbinom(1:5, 5, 0.55)*sum(maize_data[,2]),dpois(1:5,2.75)*sum(maize_data[,2])),type=c(rep("origin",5),rep("binom",5),rep("pois",5)))
##绘制图2
ggplot(maize_new_data,aes(Type,maize_yield,fill=type)) + geom_bar(stat='identity',position='dodge',alpha=.5)
maize_fre_ori maize_fre_binom 1:5, 5, 0.55)
maize_fre_pois 1:5,2.75)
##计算K-L散度
D_ori_vs_binom D_ori_vs_pois

到这里，关于K-L散度的理论部分就已经结束了。其实看到这里，我们仔细想一下，K-L散度还是非常重要的，它是一个可以衡量你建立模型好坏的一个指标，在生物信息学中也有着很多的应用，例如：如果你有正常和异常两个样本多个指标，利用K-L散度，可以估计正常和异常两个分布的差异，并且还可以定义一些阈值，来进行异常程度的分类。在t-SNE(t-distributed stochastic neighbor embedding)中，也是利用K-L散度这个指标进行梯度优化。t-SNE在高维空间把数据点之间的欧式距离转化成为正态分布，在低维空间，利用t分布，根据K-L散度指标，去逼近正态分布，最后能得到很漂亮的降维后数据的可视化结果。因为能力有限，我在这里也无法把t-SNE给大家讲的很清楚，建议对这个感兴趣的同学可以多查查资料学习一下，当然，孟浩巍学长之前也有一个课程涉及到t-SNE等多种生物信息学常用算法的详解，感兴趣同学也可以关注一下(https://ke.qq.com/course/709956)。

3.交叉熵

说道交叉熵，我们先看一下相对熵的数学表达式，在这个公式中，如果我们把这个公式展开，那么可以得到这个形式：

而新形式下的第一项正好是信息熵的数学表达式，我们把第二项定义为交叉熵(见公式5)，即相对熵交叉熵信息熵，当信息熵固定的时候，我们要用K-L散度来衡量两个分布的差异时，等价于用交叉熵来衡量差异。

那么信息熵，相对熵，交叉熵这三个概念到底对应着什么物理含义？信息熵，对应着完美的编码方式。交叉熵，对应着不完美编码方式。相对熵，是交叉熵和信息熵的差值，对应着，当不完美编码时，平均编码长度较最小编码长度的增加量。

所以，在机器学习中，有时候我们对的优化就等效于求交叉熵的最小值(不敢讲太多，因为，我也没系统学习过机器学习，只是了解一点点)。

4.尾言

这次的文章是生物信息学中的信息论基础的第二篇，到目前为止，我们在一起了解了信息熵，motif calling背后的信息论，信息熵求解组织特异性基因，相对熵(K-L散度)，交叉熵以及t-SNE简单原理。下次文章的内容将可能涉及条件熵，互信息，互信息在生物信息学中的应用。敬请期待！(ps：大家要是觉得我写的内容对您有一些帮助，欢迎大家关注我的知乎账号：https://www.zhihu.com/people/xu-yin-sheng-3，点击阅读原文即可自动跳转到我的知乎主页哦~)