1.Python简单易学,语法简单,代码十分容易被读写。
2.Python在数据分析和交互、探索性计算以及数据可视化等方面比较活跃。这也是Python作为数据分析主要工具的原因之一。
3.python拥有numpy、matplotlib、scikit-learn、pandas、ipython 等工具,在科学计算方面十分有优势,在处理中型数据方面有着无与伦比的优势,已经成为数据分析中重要的分析工具。
二、 Python在数据分析中的常用软件包介绍
1.Numpy:是Python的一种开源的数值计算扩展。可用来存储和处理大型矩阵,比Python自身的嵌套列表结构要高效的多。
2.Pandas:是Python的一个数据分析包,Pandas最初被用作金融数据分析工具而开发出来,Pandas纳入了大量的库和一些标准的数据模型以及函数和方法。提供了高效的操作大型数据集所需要的工具。
3.Matplotlib:是Python的一个可视化模块,同时是基于Numpy的一套Python包,它能方便的做线条图、饼图、柱状图以及其他专业可视化图形。
4.Scikit-Learn:是基于Python机器学习的模块,基于BSD开源许可证。Scikit-Learn的主要功能有:分类、回归、聚类、数据降维、模型选择、数据预处理。
5.Scipy:是一款方便、易于使用、专门为科学和工程设计的Python包,它包括统计、优化、整合、线性代数模块、傅里叶变换、信号和图像处理、常微分方程求解器等。
三、 Python在数据分析中的主要应用
1.数据预处理:利用python对数据进行的一些处理。主要包括了数据清理,数据集成,数据变换,数据归约等等。
2.数据降维: