Lessons for New pandas Users
给新pandas用户上课。
####01-lesson:导入库——创建数据集——创建dataFrame——从CSV导出到写入CSV——查找最大值——绘制数据。
创建数据–我们首先创建我们自己的数据集进行分析。这将预防让终端用户能阅读本教程,而不需要下载任何文件来复制下面的结果。我们将把这个数据集导出到一个文本文件中,这样您就可以从文本文件中获取一些数据。
获得数据–我们将学习如何在文本文件中读取。这些数据包括婴儿名字和1880年出生的婴儿名字。
准备数据–在这里,我们将简单地查看数据并确保它是干净的。我的意思是,我们将查看文本文件的内容并查找任何异常。这些数据可能包括丢失的数据、数据的不一致或其他看起来不合适的数据。如果找到了,我们就必须决定如何处理这些记录。
分析数据–我们会在特定的年份找到最流行的名字
展示数据–通过表格数据和图表,清楚地向终端用户显示特定年份中最流行的名称。
####创建数据
数据集将包括5个婴儿名字和那一年(1880年)的出生人数
# The inital set of baby names and bith rates
names = ['Bob','Jessica','Mary','John','Mel']
births = [968, 155, 77, 578, 973]
要合并这两个列表,我们将使用zip函数
BabyDataSet = list(zip(names,births))
BabyDataSet
Out[106]: [(‘Bob’, 968), (‘Jessica’, 155), (‘Mary’, 77), (‘John’, 578), (‘Mel’, 973)]
BabyDataSet是一个列表,每一个元素是成对元祖。
我们基本上完成了创建数据集的工作。现在我们将使用pandas库将这些数据导出到一个csv文件中。
df将是一个DataFrame对象。您可以认为该对象以类似于sql表或excel电子表格的格式保存BabyDataSet的内容。让我们看一下df里面的内容。
df = pd.DataFrame(data = BabyDataSet, columns=['Names', 'Births'])
df
数据部分用