DataFrame
- 获取数据
# 打印数据的前五行
print(df.head())
# 打印数据的后五行
print(df.tail())
- 选取一列
# 选取一列
print(df["height"])
# 数据类型是<class 'pandas.core.series.Series'>
print(type(df["weight"]))
- 增加一列
df["new_column"] = 0
df["height_weight"] = df["height"] + df["weight"]
print(df.head())
第一行代码增加一列后,在数据框中该列的数据全部为0;第二行代码增加一列后该列的数据为对应的列相加后的值
- 删除一列
df.pop("new_column")
print(df.head())
删除一列后,该列在数据框中整列被删除掉
- 获取数据框的索引
print(df.index)
print(df.columns)
print(df.shape)
print(df.dtypes)
print—>:
RangeIndex(start=0, stop=3922, step=1)
Index([‘序号’, ‘Player’, ‘height’, ‘weight’, ‘collage’, ‘born’, ‘birth_city’,
‘birth_state’],
dtype=’object’)
(3922, 8)
序号 int64
Player object
height float64
weight float64
collage object
born float64
birth_city object
birth_state object
dtype: object
index索引:表示从0开始到3922结束,步进值为1
columns行:获取所有的列名
shape:获取数据框的行数与列数
dtypes:获取数据框每一列的数据类型
- 替换None值
df_new = df.fillna(-1)
print(df.head())
print(df_new.head())
在有些数据框中会存在一些None值,这并不有利于我们对数据进行处理,所以进行替换是有必要的。这里需要注意的是fillna并不会对原有数据框进行替换而是返回一个新的替换后的数据框对象