大家好,我是带我去滑雪,每天教你一个小技巧!本文主要介绍Python常用的统计分析包,如numpy、matplotlib、pandas、scipy、statsmodels等包,并汇总了这些包的具体用法(附链接),方便各位进一步深入学习!
目录
1 numpy包
1.1 特点
在python数据类型中,list和array都可以根据索引来取其中的元素。list是python内置的,而array不是,需要加入包。区别:(a)list可以用append 或者 + 来新增元素或者添加数组,而array不行;(b)list中的数据类不必相同的,即每个元素可以是不同的数据类型,array则是由numpy封装,存放的元素都是相同的数据类型;(c)列表list不可以进行数学四则运算,数组array可以进行数学四则运算;(d)可以相互转换。
list→array:np.array(a)
array→list:a.tolist()
1.2 具体使用
https://blog.csdn.net/qq_46092061/article/details/118410838
2 matplotlib包
2.1 用处
(a)Matplotlib的Pyplot子模块与MATLAB非常相似,可以方便地绘制各种常见统计图形,是用户进行探索式数据分析的重要图形工具;
(b)可通过各种函数设置图形中的图标题、线条样式、字符形状、颜色、轴属性以及字体属性等。
2.2 具体使用
https://blog.csdn.net/qq_46092061/article/details/118369822
3 pandas包
3.1 用处
pandas是一种Python数据分析的利器,是一个开源的数据分析包,最初是应用于金融数据分析工具而开发出来的,因此pandas为时间序列分析提供了很好的支持。
功能(对数据进行预处理):
- (a)数据文件读取/文本数据读取
- (b)索引、选取和数据过滤
- (c)算法运算和数据对齐
- (d)函数的应用和映射
- (e)重置索引
-
3.2 基本数据结构
-
pandas中主要有两种数据结构,分别是:Series和DataFrame。
Series:一种类似于一维数组的对象,是由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据也可产生简单的Series对象。注意:Series中的索引值是可以重复的。
DataFrame:一个表格型的数据结构,包含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型等),DataFrame即有行索引也有列索引,可以被看做是由Series组成的字典。
3.3 具体用法
https://blog.csdn.net/qq_41298671/article/details/124916005
4 scipy包
4.1 用处
scipy包含各种专用于科学计算中常见问题的工具箱。其不同的子模块对应不同的应用,如插值、积分、优化、图像处理、统计、特殊函数等。
4.2 具体使用
https://zhuanlan.zhihu.com/p/462806946
5 statsmodels
5.1 用处
statsmodels是一个Python库,用于拟合多种统计模型,执行统计测试以及数据探索和可视化。statsmodels包含更多的“经典”频率学派统计方法,而贝叶斯方法和机器学习模型可在其他库中找到。
5.2 具体使用
包含在statsmodels中的一些模型:
(a)线性模型,广义线性模型和鲁棒线性模型
https://zhuanlan.zhihu.com/p/260701846
(b)线性混合效应模型
https://zhuanlan.zhihu.com/p/483173133
(c)方差分析(ANOVA)方法
常用数据分析方法:方差分析及实现!_数据分析v的博客-CSDN博客
(d)时间序列过程和状态空间模型
部分理论来源于网络,如有侵权请联系删除!
更多优质内容持续发布中,请移步主页查看。
点赞+关注,下次不迷路!