大家好,我是你们的小徐同学,目前本科四年级生物技术专业在读,我们又见面了。上一次,我们在一起学习了一篇有关编程基础的文章(《R、Python与Julia基础简介与入门》),详情可见:https://zhuanlan.zhihu.com/p/103705200。
这一次,我将带领大家一起了解一下生物信息学中的信息论,此次内容仅起到一个抛砖引玉的作用,并且仅覆盖信息论的一些最基础的内容。如果各位对信息论十分感兴趣,还是需要各位去买本书(教材)进行系统的学习。
本文参考的教材是电子工业出版社出版,由姜丹老师和钱玉美老师编著的《信息论与编码基础》。
1. 什么是信息?
1948年,美国科学家香农发表的论文《通信的数学理论》,奠定了信息论的理论基础。在这篇论文中,香农对信息定义为:信息是消除不确定性的东西,也就等于通信前后不确定性的消除量(香农照片见图1)。
香农到底有多厉害呢?这里引用知乎上用户“灵剑“的一段话:
别的学科的创始人是发明了一个新的起点,而香农在创立信息论的时候,直接发明了它的终点——只要你还在经典信息论框架内,你就逃不出三大定理的范围,你只能在工程应用上稍微努努力了,当你拼尽全力爬山的时候,香农在山顶等你。
香农的信息论究竟牛在哪里? - 灵剑的回答 - 知乎 https://www. zhihu.com/question/2706 8465/answer/572776043
我们知道,不确定性(可能性)在数学上可以用概率表示:概率越大,不确定性越小;概率越小,不确定性越大。例如:“中国男足获得世界杯冠军”这条信息,根据男足的历年比赛情况,男足世界杯夺冠的概率非常小,这意味着不确定性很大。而一旦这条信息发生,消除的不确定性就很大,我们从中接收到的信息