Pandas
常用数据类型
- Series,一维,带数据标签
- Dataframe, 二维, Series容器
创建
>>> import pandas as pd
>>> import string
>>> import numpy as np
# 创建序列
>>> t = pd.Series(np.arange(10), index=list(string.ascii_uppercase[:10]))
>>> t
A 0
B 1
C 2
D 3
E 4
F 5
G 6
H 7
I 8
J 9
dtype: int32
# 创建Dataframe
>>> t = pd.DataFrame(np.arange(12).reshape((3,4)))
>>> t
0 1 2 3
0 0 1 2 3
1 4 5 6 7
2 8 9 10 11
读取外部数据
pd.read_csv('aaa.csv')
pd.reads_sql(sql, connection)
取行或取列
df.loc 通过标签索引行数据
df.iloc 通过位置获取行数据
布尔索引
df[df['aaa']>1000]
df[(df['aaa']>1000]) & (df['bbb']<500)]
缺失数据处理
使用pd.isnull(), pd.notnull(), pd.isnan(), pd.notnan()获取bool矩阵获取缺失数据的位置。
pandas 常用统计方法
df['aaa'].mean()
df['aaa'].max()
df['aaa'].min()
df['aaa'].argmax()
df['aaa'].argmin()