Pandas 数据结构有两种
Series(序列):类似于一维数组,可以存储不同类型的数据,并且有自己的索引。可以通过列表、数组、字典等方式创建。
DataFrame(数据框):类似于二维表格或电子表格,由多个 Series 组成,每个 Series 都可以有不同的数据类型。常用于表示结构化数据,可以通过多种方式创建,如从CSV文件、数据库查询结果等。
下图为 以一个电影网站评分数据为例,说明什么是DataFrame,Series。
简单来说 DataFrame 就是二维数据表,整个表格 ,多行多列。
Series 就是一维数据,一行或一列。
下面为代码演示:
1. Series
Series是一种类似于一维数组的对象,它由一组数据(不同数据类型)以及一组与之有关的数据标签(索引)组成
1.1 手动创建简单的Series
import pandas as pd
s1 = pd.Series([1,"a",5,2,7])
s1
运行结果如下:
可以看到 ,在手动创建 series 时,可以传入一个list 来表述数据的内容(list 左侧为索引即列标,右侧为数据)index 当不指定时会自动生成。
可以看到,此时一行一列的数据是一个series。
2.DataFrame
DataFrame为一个表格型的数据结构
1.每列可以是不同的值类型(数值,字符串,布尔值等等等)
2.既有行索引index,也有列索引 column
3.可以看做由许多个series 组成
创建DataFrame 时最常见的方法 详情请见 第一章 pandas 文件读写[pandas 基础] 文件读写
2.1 根据基本的多个字典创建 DataFrame
data = {
"第一列":["oi","oi","oi","oi","oi"],
"第二列":["1","2","3","4","5"]
} # 创建一个字典
s2 = pd.DataFrame(data)
s2
相关的 DataFrame 如下图所示:
3.从DataFrame 中查询出Series
1.如果只查询一行一列, 则数据结构为 Series
2.如果查询多行多列 ,则数据结构为 DataFrame
3.1 如果只查询一行一列, 则数据结构为 Series
type(s2["第一列"])
s2["第一列"]
3.2 如果查询多行多列 ,则数据结构为 DataFrame
s2[["第一列","第二列"]]
type(s2[["第一列","第二列"]])
本章完毕
如发现错误请及时指正,感谢读者阅读!