Python机器学习软件包
开发环境搭建
- 安装开发环境Anaconda
or 安装python后执行
pip install jupyter numpy mayplotlib scipy scikit-learn seaborn
IPython简介
- 与Shell紧密关联,可以在IPython环境下直接执行Shell指令。
- 可以直接绘图操作的Web GUI环境,在机器学习领域、探索数据模式、可视化数据、绘制学习曲线时,这一功能特别有用。
更强大的交互功能,包括内省、Tab键自动完成、魔术命令等。
IPython基础
IPython图形界面
Numpy简介
Numpy是Python科学计算的基础库,主要提供了高性能的N维数组实现以及计算能力,还提供了和其他语言如C/C++集成的能力,此外还实现了一些基础的数学算法,如线性代数相关、傅里叶变换及随机数生成等。
Numpy数组
Numpy运算
Pandas简介
Pandas是一个强大的 时间序列数据处理工具包,最初开发的目的是为了分析财经数据,现在已经广泛应用在Python数据分析领域中。
基本数据结构
数据排序
数据访问
时间序列
数据可视化
文件读写
Matplotlib简介
- Matplotlib是Python数据可视化工具包。IPython为Matplotlib专门提供了特殊的交互模式。如果要在IPython控制台使用Matplotlib,可以使用ipython --matplotlib命令来启动IPython控制台程序。IPython的Matplotlib模式有两个优点:
- 提供了非阻塞的画图操作
- 不需要显式地调用show()方法来显示画出来的图片
- 如果要在IPython notebook里使用Matplotlib,则在notebook的开始位置插入
%matplotlib inline
魔术命令即可。 Matplotlib下的pyplot子包提供了面向对象的画图程序接口。几乎所有的画图函数都与MATLAB类似,连参数都类似。在实际开发工作中,有时候甚至可以访问MATLAB的官方文档https://ww2.mathworks.cn/help/matlab/来查询画图的接口和参数,这些参数可以直接在pyplot下的画图函数里使用。
from matplotlib import pyplot as plt
图形样式
图形对象
画图操作
scikit-learn简介
- scikit-learn是一个开源的Python语言机器学习工具包,它涵盖了几乎所有主流机器学习算法的实现,并且提供了一致的调用接口。它基于Numpy和scipy等Python数值计算库,提供了高效的算法实现。
- 文档齐全:官方文档齐全,更新及时。
- 接口易用:针对所有的算法提供了一致的接口调用规则,不管是KNN、K-Mean还是PCA。
算法全面:涵盖主流机器学习任务的算法,包括回归算法、分类算法、聚类分析、数据降维处理等。
scikit-learn示例
- 机器学习任务的一般步骤
- 数据采集和标记
- 特征选择
- 数据清洗
- 模型选择
- 模型训练
- 模型测试
- 模型保存与加载
scikit-learn一般性原理和通用原则
拓展资料
- https://scipy-lectures.org/, 一个按照CC4.0协议发布的网站,Python科学计算工具包的教程合集
- https://docs.scipy.org/doc/, numpy和scipy的官方文档
- http://pandas.pydata.org/, pandas官网
- https://matplotlib.org/, matplotlib的官方网站,包含大量的绘图实例
- https://scikit-learn.org/stable/, scikit-learn官方文档