python数据分析
第一篇:Python 数据分析入门之python的安装
前言
作者:Guido Van Rossum (GvR)
http://www.python.org/~guido/
历史:
1989年,为了打发圣诞节假期,Guido开始写Python语言的编译/解释器,Python取名得自Guido喜欢的一部Monty Python‘s Flying Circus的情景喜剧。
Python是ABC语言的后代, Guido曾在CWI工作,并参与到ABC语言的开发,Python设计理念是能够像C语言那样能够全面调用计算机的功能接口,又可以像shell那样可以轻松的编程。
1991年,第一个Python编译器(同时也是解释器)诞生。它是用C语言实现的,并能够调用C库(.so文件)。
一、Python简介
Python是一种简单易学,功能强大的编程语言。它有高效率的高层数据结构,能够简单、有效地实现面向对象编程。
Python语法简洁,支持动态输入,是解释性语言。
在大多数平台上,对于众多领域,Python都是一个理想的开发语言,特别适合于应用程序的 快速开发。
优点:其它包括可扩展性、丰富的库、面向对象、高级语言、可移植性等等特点
缺点:强制缩进、构架选择太多、性能问题、
单行语句和命令行输出问题
二、Python安装与使用
1.推荐使用Anaconda
- Anaconda Python 是 Python 科学计算包的合集,包含了常用科学计算、数据分析、自然语言处理、绘图等包,所有的包几乎都是最新的,容量适中。
- 使用了conda和pip包管理工具,安装第三方包非常方便,避免了管理各个库之间依赖性的麻烦。
- 安装后就默认安装了python、IPython、集成开发环境Spyder和众多的包和模块。支持Python2和Python3,包括免费版、协作版、企业版等。
Anaconda Python 是完全免费的企业级的Python发行大规模数据处理、预测分析和科学计算工具。
2.推荐使用jupyter lab
jupyter lab可能是python数据分析最理想的IDE。jupyter lab是一个Web应用,其前身是jupyter notebook,二者均基于ipython内核实现,但又略有不同。相较于其他IDE,jupyter lab最大特色是支持单个cell的执行,且支持可视化图表交互显示,这都使得非常利于EDA(探索性数据分析)。
优点:
- 环境搭建简单,通过pip命令安装后即可搭建
- 支持程序单cell交互执行
- 支持code和markdown格式任意切换
缺点:
一般仅适用简单程序文件执行
三、Python数据分析包简介
-
常用数据分析包
-
numpy:数组、矩阵
scipy:统计、优化、线性代数、信号、图像处理等
pandas:数据框、序列、数据处理、绘图
statsmodel:统计检验、统计建模
scikit-learn:数据变换、机器学习、交叉验证
matplotlib:绘图
其它
总结
推荐书籍:
1、机器学习,周志华 著
2、统计学习方法,李航 著