声明:内容来自博主亲手制作,转发请先通知。
Numpy:
Numpy优势
内存存储风格
ndarray在中存储的是相同格式的数据
并行化运算
底层是C语言实现
ndarray属性
形状
类型
基本操作
ndarray.方法()
np.函数()
生成数组的方法
生成0和1的数组
np.zeros(shape)
np.ones(shape)
从现有数组中生成
np.array()
np.copy()
浅拷贝np.asarray()
生成固定范围的数组
np.linspace(a,b,c)
[a,b]从a-b有c个元素的数组
np.arrange(a,b,c)
[a,b)从a-b步长为c
生成随机数组
均匀分布
np.random.uniform()
正态分布
np.random.normal()
切片索引
形状修改
ndarray.reshape((a,b))
自动计算ndarray.reshape((-1,N))
ndarray.resize()
ndarray.T
类型修改
ndarray.astype(type)
序列化到本地ndarray.tostring()
数组去重
np.unique()
运算
逻辑运算
布尔索引
通用判断函数
np.all()
np.any()
三维运算符
np.where(布尔值,b,c)
统计运算
统计指标min,max,mean,median,var,std
np.argmax()最大值所在位置
数组间运算
数组与数的运算
数组与数组的运算
广播机制
矩阵运算
二维数组
矩阵相乘
形状
运算规则
Pandas:
Pandas介绍
什么是Pandas-数据处理工具
为什么使用Pandas
便捷的数据处理能力
集成了Numpy和Matplotlib
读取文件方便
Series
结构:带索引的一维数组
属性
index
values
DataFrame
结构:带索引的二维数组
属性
shape
index
columns
values
T
常用方法
head()
tail()
索引设置
修改行列索引
只能整体修改
重设索引
设置索引
df.set_index()
Panel&带Multilndex的DataFrame
基本操作
索引操作
直接索引(先列后行)
.loc按名字索引
.iloc按数字索引
.ix组合索引
赋值操作
排序
内容sort_values()
索引sort_index()
运算
算数运算
逻辑运算
逻辑运算符&布尔索引
函数
query("")
isin()
统计运算
获取综合的统计指标
df.describe()
具体统计指标
min max std var ...(注意axis的设置)
idxmax,idxmin
累计统计指标
cumsum...
自定义运算
df.apply(函数,axis=)
画图
df.plot()
sr.plot()
IO操作
csv
pd.read_csv(path)
useclos
names
df.to_csv(path)
columns
index
header
mode
sr.to_csv(path)
hdf5
pd.read_hdf(path,key=)
df.to_csv(path,key=)
json
pd.read_json(path)
records
lines
df.to_csv(path)
records
lines
Pandas-高级:
缺失值处理
缺失值是NaN类型
判断是否存在np.nan缺失值
pd.isnull(df).any()
pd.notnull(df).all()
两种思路
删除df.dropna()
替换sr.fillna(value,inplace=)
缺失值是其他默认符号
替换df.replace(to_palce="?",value=np.nan)
按照处理nan的步骤
数据离散化
分组
自动分组pd.qcut(data,bins)
自定义分组pd.cut(data,bins)
转换
pd.get_dummies(分好组的数据,predix=)
合并
按方向合并
pd.concat((a,b),axis=)
按索引合并
pd.merge(left,right,how="inner",on=[索引])
交叉表与透视表
pd.crosstab(value1,value2)
df.pivot_table([字段],index=)
分组与聚合
dataframe.groupby(by=).聚合函数()
sr.groupby(sr).聚合函数
Matplotlib:
什么是Matplotlib
为什么用Matplotlib
Matplotlib三层结构
容器层
画板层Canvas
画布层plt.figure(figsize=,dpi=)
绘图区/坐标系figure,axes = plt.subplots(nrows=,nclos=,figsize=,dpi=)
辅助显示层
修改x,y轴刻度plt.xticks()
添加描述信息plt.xlabel(),plt.title()
添加网格plt.grid()
显示图例plt.legend()
图像层(可以设置图像颜色、风格、标签等)
折线图plt.plot()
散点图plt.scatter()
直方图plt.hist()
饼图plt.pie()