本文框架:
在数据分析领域中第三方包用到最多的是pandas、numpy与matplotlib。
Pandas是一个强大的分析结构化数据的工具集;它的使用基础是numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。
Pandas主要包含两个数据类型:
- Series
- DataFrame
Pandas比numpy好用。
numpy(Numerical Python的简称)是基于Python的高性能科学计算和数据分析的基础包。提供了python对多维数组对象的支持:ndarray,具有矢量运算能力,快速、节省空间。numpy支持高级大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。
matplotlib是Python的绘图库,主要做数据可视化图表。
一、知识点
1. 一维数据分析
numpy与pandas这两个包都有表示一维数组的特殊数据结构,在numpy中的一维数据结构叫数组Array,在pandas中的一维数据结构叫Series,Series比Array的功能更多,因为pandas的Series是建立在numpy的基础上的。
1.1 使用numpy的array进行一维数据分析
示例:
定义列表:
1)索引查询元素:
2)切片访问:
3)遍历循环访问:
4)使用dtype
查看数据类型:
dtype详细信息参考网址:
Data type objects (docs.scipy.org5)统计计算功能,如:平均值mean()、标准差std()