scikit-learn简称Sklearn,是一个开源的基于python的机器学习工具包。建立在NumPy, SciPy和Matplotlib等python数据库之上,几乎涵盖了所有的机器学习算法。sklearn安装
1、安装要求
Python(>=2.7 or >=3.3)、NumPy (>= 1.8.2)、SciPy (>= 0.13.3)
2、如果已经安装NumPy和SciPy,安装scikit-learn可以使用
pip install -U scikit-learn常用模块
分类、回归、聚类、降维、模型选择、预处理
1、分类:SVM、nearest neighbors、random forest
应用:垃圾邮件识别、图像识别
2、回归(预测与对象相关联的连续值属性):SVR、 ridge regression(岭回归)、Lasso
应用:药物反应,预测股价等连续性预测问题
3、聚类:k-Means、 spectral clustering、mean-shift
4、降维:PCA、feature selection、non-negative matrix factorization(非负矩阵分解)
5、模型选择:比较,验证,选择参数和模型:grid search(网格搜索)、cross validation(交叉验证)、 metrics(度量)。它的目标是通过参数调整提高精度。
6、预处理:特征提取和归一化:preprocessing,feature extraction,常见的应用有:把输入数据(如文本)转换为机器学习算法可用的数据。例子例子2:可以自己构造数据集
上图为相关性分析预处理:交叉验证:
我们首先会将原始数据集分为三部分:训练集、验证集和测试集。训练集用于训练模型,验证集用于模型的参数选择配置,测试集对于模型来说是未知数据,用于评估模型的泛化能力。不同的划分会得到不同的最终模型。
那么是否n_neighbor=5便是最好呢,来调整参数来看模型最终训练分数。保存模型
本文是对参考资料:Python之Sklearn使用教程 的学习,详细内容可以参考链接。
更多内容可以关注公众号:AI算法驿站