关于网上提到的分箱操作
没有“最佳”箱大小(除非您的值属于明显不同的集群)。
对于连续分布,最好使用Kozachenko-Leonenko的k最近邻估计熵(K & L 1987)和相应的Kraskov,…,Grassberger(2004)估计互信息。
Kozachenko-Leonenko估计量的基本思想是查看相邻数据点之间的平均距离(的某个函数)。直觉是,如果这个距离很大,数据中的离差很大,因此熵很大。在实践中,不是采用最近的邻居距离,而是倾向于采用k-最近邻居距离,这往往会使估计更稳健。
github上代码实现:https://github.com/paulbrodersen/entropy_estimators。