![e50ae8be3a9a5d8440234598f7bb8a2c.gif](https://img-blog.csdnimg.cn/img_convert/e50ae8be3a9a5d8440234598f7bb8a2c.gif)
在上一篇文章 数据分析利器 pandas 系列教程(一):从 Series 说起 中:详细介绍了 pandas 基础数据结构 Series,今天说说另一种数据结构 DataFrame。
dataframe 是表格型的数据结构,由一组有序的列组成,可以看成是由 Series 组成的字典,举个例子:
/ | name | sex | course | grade |
---|---|---|---|---|
0 | Bob | male | math | 99 |
1 | Alice | female | english | 92 |
2 | Joe | male | chinese | 89 |
3 | Bob | male | chinese | 88 |
4 | Alice | female | chinese | 95 |
5 | Joe | male | english | 93 |
6 | Bob | male | english | 95 |
7 | Alice | female | math | 79 |
8 | Joe | male | math | 89 |
创建 dataframe 的常见方式
同 series 一样,dataframe 也有 index,不同的是,series 除了 index,只有一列,而 dataframe 通常有很多列,比如上面的 dataframe 就有四列,而且都有名字: name、sex、course、grade,通过这些名字,可以索引到某一列,这些名字称为 列(索引) ,因此,在 dataframe,我更愿意将 index 称为 行索引 ,以此和列索引区分开。 创建 dataframe 其实有 N 种方法,没必要一一掌握,毕竟常用的不过两三种,我也不打算把所有的创建方式都说一遍,那样有炫技的嫌疑,按照自己的理解,我把这些创建方式统一分为两大类: 按列的方式创建 、 按行的方式创建 ,只讲这两大类下各自最具代表性的创建方式。 以创建上面那个 dataframe 为例,后同。通过列创建
import pandas as pd#没有设置行索引 index,取默认值df = pd.DataFrame({
'name':['Bob','Alice','Joe']*3, 'sex':['male','female','male']*3, 'cours