尚学堂百战程序员python_尚学堂百战程序员:Python之数据分析库

Python是一种面向对象、直译式计算机程序设计语言,由Guido van Rossum于1989年底发明。由于他简单、易学、免费开源、可移植性、可扩展性等特点,Python又被称之为胶水语言。下图为主要程序语言近年来的流行趋势,Python受欢迎程度扶摇直上。

python下的数据分析模块pandas:依赖于numpy和sciepy,主要用于数据分析,数据预处理以及基本的作图,这个包不涉及复杂的模型。statsmodels:统计包,设计各种统计模型,包括回归、广义回归、假设检验等,结果类似于R语言,会给出各种检验结果。对于numpy和scipy是作为科学计算用的,提供各种向量矩阵计算、优化、随机数生成等等。以上都是一些包,如果是分析环境的话,可以考虑spyder和ipython notebook——其中ipython notebook 是可以把代码、结果以及报告同时结合在一起的东西——类似于R语言的Rmarkdown。

1.Numpy:

Numpy是python科学计算的基础包,它提供以下功能(不限于此):

(1)快速高效的多维数组对象ndarray

(2)用于对数组执行元素级计算以及直接对数组执行数学运算的函数

(3)用于读写硬盘上基于数组的数据集的工具

(4)线性代数运算、傅里叶变换,以及随机数生成

(5)用于将C、C++、Fortran代码集成到python的工具

2.pandas

pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数。pandas兼具Numpy高性能的数组计算功能以及电子表格和关系型数据(如SQL)灵活的数据处理能力。它提供了复杂精细的索引功能,以便更为便捷地完成重塑、切片和切块、聚合以及选取数据子集等操作。

对于金融行业的用户,pandas提供了大量适用于金融数据的高性能时间序列功能和工具。

DataFrame是pandas的一个对象,它是一个面向列的二维表结构,且含有行标和列标。

ps.引用一段网上的话说明DataFrame的强大之处:

Excel 2007及其以后的版本的最大行数是1048576,最大列数是16384,超过这个规模的数据Excel就会弹出个框框“此文本包含多行文本,无法放置在一个工作表中”。Pandas处理上千万的数据是易如反掌的事情,同时随后我们也将看到它比SQL有更强的表达能力,可以做很多复杂的操作,要写的code也更少。 说了一大堆它的好处,要实际感触还得动手码代码。

3.matplotlib

matplotlib是最流行的用于绘制数据图表的python库。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值