如何利用python3创建数据表_大数据分析如何利用Python创建数据透视表

本文介绍了如何利用Python的pandas库创建数据透视表,以对数据进行快速汇总和分析。通过实例展示了如何使用数据透视表功能对《世界幸福报告》数据进行分组、计算平均值,从而发现不同年份和地区的幸福分数趋势。此外,还探讨了数据透视表的多索引、自定义函数处理异常值以及处理缺失数据的方法,强调了数据透视表在大数据分析中的实用性。
摘要由CSDN通过智能技术生成

大数据分析如何利用Python创建数据透视表?面对新数据集时面临的最大挑战之一就是知道从哪里开始以及应该关注什么。能够快速汇总成百上千的行和列可以节省大量时间和精力。数据透视表是您可以用来实现此目的的简单工具,它可以帮助您以查询的速度对数据进行切片,过滤和分组,并以视觉上有吸引力的方式表示信息。

数据透视表有什么用?

您可能已经熟悉Excel中的数据透视表的概念,该概念在1994年由商标名称PivotTable引入。使用此工具,用户可以自动对一个表中存储的数据进行排序,计数,总计或平均。在下图中,我们使用了数据透视表功能来快速汇总Titanic数据集。下面较大的表显示了数据集的前30行,较小的表是我们创建的数据透视表。

左侧的数据透视表根据Sex和Survived列对数据进行了分组。结果,此表显示了每种性别在不同生存状态中所占的百分比(0::未生存,1::生存)。这使我们能够迅速看到女性比男性拥有更好的生存机会。右侧的表格也使用该Survived列,但是这次数据按分组Class。

介绍我们的数据集:《世界幸福报告》

在上面的示例中,我们使用了Excel,但是大数据分析如何利用Python创建数据透视表将演示内置熊猫函数内置的功能pivot_table。我们将使用《世界幸福报告》,该报告是有关全球幸福状况的调查。该报告按其幸福等级对150多个国家/地区进行排名,自2012年以来几乎每年都会发布。我们将使用2015年,2016年和2017年收集的数据,如果您想了解的话可以下载。沿。我们正在运行python 3.6和pandas 0.19。

我们可能要回答的一些有趣的问题是:

1)世界上最幸福和最不开心的国家和地区是?

2)幸福会受到地区的影响吗?

3)在过去三年中,幸福感分数是否发生了显着变化?

让我们导入数据并快速浏览一下:

每个国家/地区的Happiness Score收入是通过将表格中的其他七个变量相加得出的。这些变量中的每一个都揭示了人口加权平均得分,范围从0到10,随时间推移进行追踪,并与其他国家进行比较。

这些变量是:

1)Economy:人均实际GDP

2)Family: 社会支持

3)Health:健康的预期寿命

4)Freedom:自由选择生活

5)Trust:对腐败的看法

6)Generosity:慷慨的看法

7)Dystopia:将每个国家/地区与假设国家/地区进行比较,该国家/地区代表每个关键变量的最低国家平均水平,并与残留误差一起用作回归基准

每个国家/地区都将Happiness Sc

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值