Pandas是Python语言进行数据分析的基础库,是一个基于NumPy的基本的数据分析包。该工具是为了解决数据分析任务而创建的,Pandas纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。而且提供了大量的能使我们快速便捷的处理数据的函数和方法。
Pandas最初是为了金融数据分析而开发出来的,所以提供了十分强大的时间序列分析支持。同时,在人工智能爆发的时代,无论是传统的机器学习还是飞速发展的深度学习,对数据的预处理无疑是在训练模型之前的重中之重,Pandas对数据的处理提供了便捷的工具和方法,是学习人工智能的先修课。Pandas也可以快速读取CSV,Excel等文件,为大数据分析提供了便利。
1.Pandas中最基本的数据类型是Series,Series是处理一位数据的数据类型,下面我们简单定义一个Series:
s = pd.Series([1, 3, 5, 6, 8])
Series会自动的为数据加入索引值,从0开始,类似于数组
2.同时我们也可以为数据自定索引index:
s = pd.Series([1, 2, 5, 6, 8], index=['a', 'b', 'c'