pandas标识更像是给数据矩阵的行列加上标识
比如一组数据
[[ 0 1 2 3]
[ 4 5 6 7]
[ 8 9 10 11]]
变成
max mean min std
a 0 1 2 3
b 4 5 6 7
c 8 9 10 11
基本知识
import numpy as np
import pandas as pd
# pandas的主要的数据结构 Series(一维)和DataFrame(矩阵)
# 一般 行标是特性 列表是样本
# index/columns=list("abcd") 等价于 index/columns=['a','b','c','d']
# Series 一维 自动添加索引值
s = pd.Series([1,2,3,64,1,np.nan])
# print(s)
dates = pd.date_range("20201123",periods=6)
df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=['a','b','c','d']) # index 行标 columns 列标
# DataFrame是一个表格型的数据结构,它包含有一组有序的列,每列可以是不同的值类型(数值,字符串,布尔值等)。
# DataFrame既有行索引也有列索引, 它可以被看做由Series组成的大字典。
x = pd.DataFrame(np.arange(9).reshape((3,3)),
index = list("abc"),
columns = ['qwe','asd','zxc'])
# obj.reindex 将数据按照新索引序列排序
x2 = x.reindex(columns=['asd','qwe','zxc'])
# obj.drop() 返还obj删除某行后的结果,原对象并不变化(使用inplace=True可以修改原对象),axis=1,作用于列
# 另外一种生成df的方法 DataFrame里面是字典
df2 = pd.DataFrame({"a":1,
"b":pd.Timestamp("20201123"),
'c':np.array([3]*3,dtype='int32'),
'd':['word','word','text']})
# 这种方式生成时,字典的key值是列标,行标是0~n
# 这种方法能对每一列的数据进行特殊对待
print(df2.dtypes) # 可以查看每个列的数据类型
print(df2.index) # 所有行标
print(df2.columns) # 所有列标
print(df2.values) # 所有values值
print(df2.describe()) # 挺有用&#