Pandas的基本运用
介绍
pandas是基于numpy数组构建的,负责数据预处理,清洗,分析等工作,pandas是专门为表格数据和混杂数据设计的
Pandas提供两种数据模型
Series
DataFrame
一个介绍普通的数组,一维
多维数组,通常是二维
series
一个一维数组,其中每个元素都有自已的标签(索引)
也就是位置;标签
可以完美以前的数组的数组0,1,2,3
,也可以是字符
某种意义上来说,就是字典
series的组成部分
- index:索引
- value: 数据数组(nadarray)
from pandas import Series
# 创建一个索引为数字递增的series,其value是1,2,3,4
s1 = Series([1, 2, 3, 4])
print(s1)
# 创建一个索引为指定字符的series
s2 = Series([3, 4, 5, 6],['a', 'b', 'c', 'd'])
print(s2)
# 根据字典创建
data = {
1: "a", 2: "b", 3: "c"
}
s3 = Series(data)
print(s3)
DataFrame
与series不同的是,df是一个二维数组结构,类似于Excel,这个pandas中最常用的数组结构,毕竟在现实中,绝大多数的数据皆可以使用Excel来存储,另外关系型数据如MYSQL也是类似于Excel
关于索引
因为DF是一个二维数组,所以他的索引是有两个部分组成:行和列
行索引:index
列索引:columns
DataFrame的轴(axis)概念
平时大家理解的坐标系有x轴
和y轴
,那么DataFrame也有自已轴名称
水平(列)方向表示:
DataFrame运用
代码表示:
from pandas import DataFrame
# 最常见的创建行数是使用一个字典或者numpy数组来创建,只不过字典的value要是一个常规数组
data = {
"name": ['张三', '李四', '王五'],
'age': [16, 27, 38],
'score': [56, 78, 90]
}
df1 = DataFrame(data)
print(df1)
# --2--
# 使用嵌套字典创建,在嵌套字典中需要在设置值得时候字典行索引
pop = {
'成本': {1001: 17.2, 1002: 34, 1003: 45},
'价格': {1002: 34, 1004: 54}
}
df2 = DataFrame(data=pop)
print(df2)
# ---指定新的索引---
df3 = DataFrame(data=data,index=['A', 'B', 'C'])
行,列,值
DataFrame的核心就是行
,列
,值
,和Excel一样,我们最终关注是值
,但是找到值
的前提是必须知道行
和列
,所以DataFrame的操作核心就是行
,列