简介
pandas含有使数据分析工作变得更快更简单的高级数据结构和操作工具。pandas是基于NumPy构建的,让以NumPy为中心的应用变得更加简单。
pandas有两个主要的数据结构:Series 和 DataFrame。虽然它们并不能解决所有问题,但它们为大多数人提供了一种可靠的、易于使用的基础。
Series
Series是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。
DataFrame
DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共用同一个索引)。跟其他类似的数据结构相比,DataFrame中国面向行和面向列的操作基本上是平衡的。
使用经验总结
1.head()函数
在用Pandas读取数据或对数据做些处理之后,用head函数可以默认读取前5行的数据
2.shape()函数
返回的是元组,无参数返回的是行数和列数,传入参数为0返回的是行数,传入参数为1返回的是列数
3.iloc[ : , : ]函数
4.tolist()函数
Pandas的tolist()
函数用于将一个系列或数据帧中的列转换为列表。