1.pandas常用数据类型
Series:一维,带标签的数组,标签也就是索引
DataFrame :二维,Series容器,一列是一个Series
2.Series一维容器
1).创建Series
# 字典创建
temp_dict = {'name': 'wang', 'age': 20, 'tel':10010, 'like':'sleep'}
s3= pd.Series(temp_dict)
2).索引和切片
name = s3["name"]
age = s3["age"]
tel = s3["tel"]
3).取不连续的值
s3[[0,2]] # 获取0行和2行
s3[["name", "like"]]) # 获取name行和like行
4).index和values的相关操作
temp_dict = {'name': 'wang', 'age': 20, 'tel':10010, 'like':'sleep'}
s3= pd.Series(temp_dict)
name, age, tel, like = s3.index
s3.values
len(s3.index) # 获取可迭代对象长度
len(s3.values)
list(s3.index) # 可迭代对象转换为列表
list(s3.values)
3. DataFrame (二维容器)
1).创建DataFrame
import pandas as pd
import numpy as np
df1 = pd.DataFrame(np.arange(12).reshape(3,4), index=list("abc"), columns=list("wxyz"))
print(df1)
2).df.shape # 返回行数和列数
df.dtypes # 返回列数据类型
df.index # 返回行索引
df.column # 返回列索引
df.values # 返回数据值,不包含索引
df.info() # 返回相关信息,行数、列数、列非空个数、列类型、内存占用等
df.describe() # 快读统计综合结果,计数、均值、标准差、最大最小值等
df.head(3) # 返回数据的前3行,默认5行
df.tail(3) # 返回数据的后3行,默认5行
3).loc通过 标签 获取数据
df1.loc["a"] # 取a行
df1.loc["a",:] # 取a行,同上
df1.loc["W"] # 报错,只能取行,不能取列
df1.loc[:,"W"] # 取W列
df1.loc["a","W"] # 取a行和W列相交的元素
df1.loc[["a", "b"]] # 取a列和b行
df1.loc[["a","b"], :] # 取a行和b行,同上
# 取a行、c行和W列、Y列相交的4个元素,在numpy中只能取出两个元素
df1.loc[["a", "c"], ["W", "Y"]]
df1.loc["a":"c", ["W"]] # 使用loc进行切片索引时,最后一个c是可以选中的,从a到c,和w列相交的3个数据
4).iloc通过 位置 获取数据
df1.iloc[1,:] # 取第1行数据
df1.iloc[:,1:] # 取第1列以及往后的所有数据
# 取1行、2行和2列、2列相交的4个元素,若在numpy中取得是df1[1][2]和df1[2][3]
df1.iloc[[1,2],[2,3]]
df1.iloc[:,[0,2]] # 取第0列和第2列
# 把0行和1行赋值成NaN,在numpy中直接赋值会报错,应转换为float
df1.iloc[:2] = np.nan