scikit-learn中文文档-学习笔记一

最新推荐文章于 2024-04-19 08:46:11 发布

VIP文章大布小凡

最新推荐文章于 2024-04-19 08:46:11 发布

阅读量5.8k

点赞数

分类专栏： python 大数据 sklearn 文章标签：机器学习数据 sklearn-教程

本文链接：https://blog.csdn.net/qq_35869389/article/details/79076969

版权

机器学习问题：
监督学习：数据带有我们想要预测的附加属性（各个属性已知）
1. 分类：样本属于两个或更多类，从标记得数据训练并能预测出未标记的数据类别；另一个因素是，数据是离散的，我们想要使用正确的类别来标记这些数据。
2. 回归：期望输出是一个或多个连续变量，则使用回归方法。比如预测人身高和体重的函数关系。

非监督学习：训练数据由没有任何相应属性的一组输入向量x组成，我们想要训练出向量X的数据都属于什么类别。这种问题的目标可能是在数据中发现类似示例的组，称为聚类，或者确定输入空间内的数据分布，称为密度估计。当向量X是高维数据时，使用（主成分分析）PCA，拉普拉斯映射，矩阵奇异值分解SVD等方法降至二或三维，容易分析，可以做到可视化。

训练集和测试集：训练集是我们用于模型训练的数据，测试集是我们用于检验模型的的数据。在数据有限的条件下，怎么分配训练集和测试集也是一个知识点。

一. 加载数据

加载内部数据
from sklearn import datasets
datasets里的数据都含有两个对象（n_samples, n_features）, dataset.data和dataset.target, dataset.images使用.
(1). 加载波士顿房价数据集(regression)：load_boston([return_X_y])
(2). 加载鸢尾属植物数据集(classification)：load_iris([return_X_y])
(3). 加载糖尿病数据集（regression）: load_diabetes([return_X_y])
(4). 加载digits数据集(classification): load_diabetes([return_X_y])
(5). load_linnerud([return_X_y]) ：Load and return the linnerud dataset (multivariate regression).
(6). load_wine([return_X_y]): Load and return the wine dataset (classification).
(7). load_breast_cancer([return_X_y]): Load and return the breast cancer wisconsin dataset (classification).
(8). 加载图片数据集： load_sample_im