推荐一下copent包。
该包实现了一种非参数的Copula熵(Copula Entropy)估计方法,可解决多个机器学习和统计学基础性问题,应该会让你相见恨晚了。
此包在PyPI上的网址是:copentpypi.org
相关性分析
Pearson相关系数是一种统计学史上重要的相关性度量概念,虽然应用广泛,但却具有线性和高斯性等局限性。 Copula熵则是一种更高级的相关性度量,它没有线性和高斯性的假设,是一个多变量的相关性度量。如下论文将二者进行了对比,并利用著名的NHANES医学体检数据证实了copula熵的显著优越性。
Ma, Jian. “Discovering Association with Copula Entropy.” arXiv preprint arXiv:1907.12268 (2019).Discovering Association with Copula Entropyarxiv.org
特征(变量)选择
特征选择推荐使用Copula熵方法,研究表明其优于目前所有主流方法。以下论文将此方法与如下经典变量选择方法在UCI heart disease data上进行了对比LASSO
Adaptive LASSO
Ridge Regression
Elastic Net
AIC
BIC
Distance Correlation
Hilbert-Schmidt Independence Criterion (HSIC)
证明了copula熵方法在预测能力和可解释性能两方面的优越性。
Ma, Jian. “Variable Selection with Copula Entropy.” Chinese Journal of Applied Probability and Statistics (accepted). See also arXiv preprint arXiv:1910.12389 (2019).Variable Selection with Copula Entropyarxiv.org
时序因果发现
传递熵是度量时序之间因果关系的概念,它可被认为是格兰杰因果检验的非线性版本。以下论文基于copula熵估计给出了传递熵估计的非参数方法,并利用这个方法研究了气象因素和PM2.5之间的因果关系。
Ma, Jian. “Estimating Transfer Entropy via Copula Entropy.” arXiv preprint arXiv:1910.04375 (2019).Estimating Transfer Entropy via Copula Entropyarxiv.org
论文的Python代码见:https://github.com/majianthu/transferentropygithub.com