pandas是一个数据处理的工具包,里面的数据结构有3类,但是日常用到的大多只有两类。
series 一维
例如: 1,2,3,4,5
- 如何创建一个series
import pandas as pd
pd.Series(data=data,index=index)
其中data可以是python中的字典。numpy中ndarray,也可以是一个常数。
index是索引,可以没有。默认创建0,1,2,3。。。。。
DataFrame 二维数据结构
- 如何创建一个DataFrame
#第一种:类型为字典,键为colnums,值里面的元素为series。
d = {'one': pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
'two': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}
#第二种:类型为列表。
data = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data2)
-
列的增加,删除,选择
-
选择
- 按列标签
df['one']
- 按行标签
df.loc[label] #label是行标签也就是index
- 按整数位置选择行
df.iloc[loc] #loc是行的索引,注意是索引不是标签
- 切片得到行数
df.[5:10] 获取5到10行的数据
- 按布尔向量选择行
df[df['a']>1] 表示选择a列里面大于1的行数
- 按列标签
-
添加
df['three'] = df['one'] * df['two'] df.insert(1, 'bar', df['one']) #位置,列名称,内容
- 删除
del df['two'] df.pop('three')
-