大数据分析Pandas和Python如何合并数据表?你将很难找到不需要串联的大数据分析项目(将多个数据源组合在一起)。通常,数据分析要求将新行添加到表中,在更复杂的情况下(在更复杂的情况下)拉出更多列,将不同的表合并到一个公共键上。所有这些技巧都可以轻松地放在口袋里,因此不同的数据源不会妨碍你的分析!
在此串联教程中,我们将逐步介绍几种使用熊猫组合数据的方法。它面向初学者到中级,并且需要了解熊猫DataFrame的基础知识。对SQL和关系数据库的一些事先了解也将派上用场,但不是必需的。我们将分析四种国家的平均年度劳动时间,并介绍四种不同的技术(连接,附加,合并和合并)。我们还将在每个步骤之后创建一个图,以便我们直观地了解每种数据组合技术所产生的不同结果。作为奖励,你将在大数据分析Pandas和Python如何合并数据表中获得有关全球劳动力趋势的见解以及可添加到你的投资组合中的漂亮图表集!
我们将在经济合作与发展组织(OECD)中扮演宏观经济分析师的角色。我们试图回答的问题很简单,但很有趣:哪个国家的公民投入了最长的工作时间,这些趋势随着时间的推移如何变化?不幸的是,经合组织一直在分别收集不同大陆和不同时期的数据。我们的工作是首先将所有数据放在一个位置,以便我们进行必要的分析。
访问数据集
在此处下载教程数据文件
我们将使用来自OECD就业和劳动力市场统计数据库的数据,该数据库提供了可追溯至1950年的大多数发达国家的平均年度劳动小时数据。在大数据分析Pandas和Python如何合并数据表中,我将互换使用DataFrames和表格。我们将在Python 3中使用Jupyter Notebook(欢迎使用你希望使用的任何IDE(集成开发环境),但是在Jupyter中最容易遵循大数据分析Pandas和Python如何合并数据表)。启动后,让我们导入pandas和matplotlib库,然后使用%matplotlb inlineJupyter知道如何在笔记本单元格中显示图。如果我提到的任何工具听起来都不熟悉,建议你参阅AAA教育入门指南。
接下来,我们将使用该pd.read_csv()函数打开前两个数据文件。我们将通过传递参数指定将第一列用作行索引index_col=0。最后,我们将显示初始表的外观。
经过一番观察,我们发现行是国家,列是年,单元格值是每位员工的平均每年工作时间。尽管DataFrames辉煌,但乍一看仍然很难理解,因此我们将使用matplotlib的DataFrame.plot()方法为我们的年度劳动趋势创建折线图,进行一些绘图。
哇,那不是我们想要的!默认情况下,该DataFrame.plot()方法将行视为x轴标签,将单元格值视为y轴标签,将列视为线。此处的快速解决方案是使用DataFrame.transpose()方法在DataFrame上旋转轴。为了使可视化效果更加出色,我们将title='string'在plot方法中使用参数添加标题。我们可以将这些方法链接在一起,然后用于plt.show()整齐地显示我们的折线图,而绘图上方没有matplotlib文本行。
连接美洲数据
看起来我们在north_americaDataFrame中有三个国家,在DataFrame中有一个国家south_america。由于这些是在两个单独的图中,因此很难比较南美和北美的平均劳动时间。如果我们能够将所有国家/地区纳入同一个数据框,则进行此活动会容易得多。
对于需要添加相同长度的