sklearn是python自带工具吗_python机器学习之Sklearn

scikit-learn简称Sklearn,是一个开源的基于python的机器学习工具包。建立在NumPy, SciPy和Matplotlib等python数据库之上,几乎涵盖了所有的机器学习算法。sklearn安装

1、安装要求

Python(>=2.7 or >=3.3)、NumPy (>= 1.8.2)、SciPy (>= 0.13.3)

2、如果已经安装NumPy和SciPy,安装scikit-learn可以使用

pip install -U scikit-learn常用模块

分类、回归、聚类、降维、模型选择、预处理

1、分类:SVM、nearest neighbors、random forest

应用:垃圾邮件识别、图像识别

2、回归(预测与对象相关联的连续值属性):SVR、 ridge regression(岭回归)、Lasso

应用:药物反应,预测股价等连续性预测问题

3、聚类:k-Means、 spectral clustering、mean-shift

4、降维:PCA、feature selection、non-negative matrix factorization(非负矩阵分解)

5、模型选择:比较,验证,选择参数和模型:grid search(网格搜索)、cross validation(交叉验证)、 metrics(度量)。它的目标是通过参数调整提高精度。

6、预处理:特征提取和归一化:preprocessing,feature extraction,常见的应用有:把输入数据(如文本)转换为机器学习算法可用的数据。例子例子2:可以自己构造数据集

上图为相关性分析预处理:交叉验证:

我们首先会将原始数据集分为三部分:训练集、验证集和测试集。训练集用于训练模型,验证集用于模型的参数选择配置,测试集对于模型来说是未知数据,用于评估模型的泛化能力。不同的划分会得到不同的最终模型。

那么是否n_neighbor=5便是最好呢,来调整参数来看模型最终训练分数。保存模型

本文是对参考资料:Python之Sklearn使用教程 的学习,详细内容可以参考链接。

更多内容可以关注公众号:AI算法驿站

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值