数据分析常用库总结
一、科学计算库
1.numpy库常用操作
1.1 numpy基础
创建ndarray数组(三种方式,dtype可设置数据类型)
In [1]: import numpy as np
In [2]: a = np.array([1,2,3],dtype = np.int8)
In [3]: b = np.array(range(1,4),dtype = np.int8)
In [4]: c = np.arange(1,4,dtype = np.int8)
In [5]: a
Out[5]: array([1, 2, 3], dtype=int8)
In [6]: b
Out[6]: array([1, 2, 3], dtype=int8)
In [7]: c
Out[7]: array([1, 2, 3], dtype=int8)
“”“
ndarray:N维数组对象(矩阵),所有元素必须是相同类型。
ndarray属性:
a.ndim,表示维度个数;
a.shape,表示各维度大小;
a.dtype,表示数据类型。
a.reshape(1,3),表示修改维度大小
a.flatten(),把数组转化为一维数据
“”“
数组运算
矢量运算:相同大小的数组之间的运算应用在相对应的元素上 ,大小不同的数组运算遵循广播原则
矢量和标量运算:“广播机制”将标量“广播”到各个元素上
如果不懂可参考 numpy的广播机制详解
1.2 numpy数组切片
一维数组的索引:与Python的列表索引功能相似
多维数组的索引:
- arr[r1:r2, c1:c2]
- arr[1,1] 等价 arr[1][1]
- [:] 代表某个维度的数据
numpy的布尔索引:
numpy中的三元运算符
numpy中的clip(裁剪)
numpy中的nan和inf
numpy中nan注意点
numpy常用统计函数
ndarry缺失值填充均值
1.3 numpy数组拼接和交换
1.4 numpy更多好用方法
numpy生成随机数
2.scipy库常用操作
未完待续
二、数据分析库
2.1 pandas库常用操作
可参考pandas用法
3.1 matplotlib库常用操作
未完待续
3.2 seabon库常用操作
- msno.matrix():显示出缺失值的无效矩阵
- msno.bar():显示条形图
- msno.heatmap():显示热图
- msno.dendrogram():显示树状图
未完待续