背景
最近需要用python计算大量的一维向量之间的相关系数, 其中:
测试数据: (1000, 100) one of them (100,)
模板数据: (1000, 100) one of them (100,)
那么就需要计算1,000,000次相关系数,那么在这种情况下, 计算效率就变得很重要了.
直接看提速好几百倍的升级版->【Python】当你需要计算1,000,000+次一维向量的相关系数, 怎么算最快(2)?
----------------------以下为第一次探索这个问题的原文-------------------------
常见的几种计算相关系数的方法有:
基于Pandas
DataFrame.corr()
实践了特别慢, 需要构建frame, 不推荐.
基于Numpy
1. np.cov()
这个是算协方差, 后续还需要手写代码进一步计算相关系数
2.np.corrcoef()
这个其实就是皮尔森系数的numpy实现, 算线性相关的.