python所有组合_Python 生成所有组合

Python 生成所有组合,除了排列,itertools模块还提供了计算集合元素组合的函数。对于组合来说,顺序不重要。对于一个给定的集合,组合的数量远小于排列的数量,对于 P 个元素组成的集合,r元组合的数量为:

例如,5张扑克牌共有2 598 960种组合方式,以下代码列出了所有组合形式:

实际应用中,在对包含多个变量的数据集进行探索性分析时,经常要计算任意两个变量间的相关性。如果有 \upsilon 个变量,可用下面的表达式枚举所有需要比较的变量对:

下面从http://www.tylervigen.com取样本数据来展示完整的处理流程。首先从中选择3个有共同时间范围的样本:第7号、第43号和第3890号,把它们放在同一个数据表中,保留各自的“年份”列。

数据表第一行和后面按年份排列的数据行如下所示:

使用combinations()函数基于9个变量生成所有二元比较对。

共有36种组合,去掉其中由各个年份列形成的组合,它们的相关系数是1.00。

从数据集中提取列的函数如下所示:

然后用前面介绍的corr()函数比较两列数据。

如下所示计算所有组合相关系数:

对于组合在一起的列,首先将它们从数据集中提取出来,header_p, *data_p =语句通过多重赋值将序列的第一个值(即标题)与后面的数据分离。如果标题一致,说明参与计算的是同一列。在上面的数据集中,由于存在3个重复的年份列,所以要排除这种情况。

之后用相关性函数处理这些列,得到相关系数,再打印出这些列的标题,这里特意选择了几个模式不同但相关度很高的伪相关特征。

计算结果如下:

数据体现出的模式的意义尚不清楚,为什么存在相关性?这些缺乏明确意义的、含混的相关性会干扰统计分析,但我们找到了那些相关性很高却缺乏关联因素的数据。

这里的重点是使用简单的表达式combinations(range(9), 2)生成了所有可能的数据组合。利用这类简单易用的技术让我们可以专注于处理数据分析中的问题,而不必费心于构建组合算法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值