Numpy、Pandas、Matplotlib三者的利弊分析

Numpy、Pandas、Matplotlib三者的利弊分析

这三个库是使用python进行数据分析中最常用到的,numpy通常用来进行矢量化的计算,pandas通常用来处理结构化的数据,而matplotlib是用来绘制出直观的图表。

numpy底层是用标准C语言实现,补充了python语言所欠缺的数值计算能力,充分优化了python的运行效率,也是其它数据分析及机器学习库的底层库。numpy的基本对象是ndarray,最大的优势在于用它进行多维数组的计算,不用写多重for循环,直接可以进行矢量化的运算。更厉害的是其封装了vectorize函数,可以把处理标量的函数矢量化,极大地提高了计算速度。但是ndarray中的数据类型必须相同,于是有了pandas可以处理不同数据类型的数据集。

pandas是基于numpy的一种工具,该工具是为了解决数据分析任务而创建的,能够高效地操作大型结构化数据集。最常用到的数据结构是里面的Series和DataFrame。可以把Series理解为一个一维的数组,只是index名称可以自己改动。类似于定长的有序字典,有index和value。而DataFrame是一个类似于表格的数据类型,可以理解为一个二维数组,索引有两个维度,可更改。一行一样本,一列一特征。每一行都可以看作一个样本,每一列都可以看作一个Series。通过对其中的行和列执行算术运算,从而得出分析结果。还有一个很好用的功能是用其封装的to_datetime函数转换日期数据类型,支持大多数的日期格式,而且转换后的datetime类型数据支持日期运算。

matplotlib是python的一个绘图库,使用它可以很方便的绘制出版质量级别的图形,通常是配合numpy和pandas一起使用。在拿到一组数据样本后,我一般会用matplotlib绘制出关键的几个特征图,对总体数据有个直观的感受,再根据描述性统计情况(pandas中的describe函数),进行具体的数据处理。在提交数据分析的结果时,会用处理完的数据通过matplotlib绘制出相应的图表以辅助分析。

  • 7
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值