这个讲信息熵比较全,讲得比较清晰.http://blog.csdn.net/pipisorry/article/details/51695283
搞明白一件事情,信息熵的变量是随机事件X,随机事件Y等,不是随机变量的取值.即给定一个随机事件,产生一个对应的信息熵,而不是给定随机变量的取值,产生一个对应的信息熵.跟某个随机变量值相对应的东西是确定该值所需要的信息,也就是常说的信息量,也可以理解为确定随机变量为该值后消除的不确定性.
http://blog.csdn.net/xwd18280820053/article/details/70739368
这个条件熵讲的不错。
http://ccckmit.wikidot.com/st:mutualinformation
公式清晰,就是繁体字看着有点。。。