scikit-learn中文文档-学习笔记一

机器学习问题:
监督学习:数据带有我们想要预测的附加属性(各个属性已知)
1. 分类:样本属于两个或更多类,从标记得数据训练并能预测出未标记的数据类别;另一个因素是,数据是离散的,我们想要使用正确的类别来标记这些数据。
2. 回归:期望输出是一个或多个连续变量,则使用回归方法。比如预测人身高和体重的函数关系。

非监督学习:训练数据由没有任何相应属性的一组输入向量x组成,我们想要训练出向量X的数据都属于什么类别。这种问题的目标可能是在数据中发现类似示例的组,称为聚类,或者确定输入空间内的数据分布,称为 密度估计。当向量X是高维数据时,使用(主成分分析)PCA,拉普拉斯映射,矩阵奇异值分解SVD等方法降至二或三维,容易分析,可以做到可视化。

训练集和测试集:训练集是我们用于模型训练的数据,测试集是我们用于检验模型的的数据。在数据有限的条件下,怎么分配训练集和测试集也是一个知识点。

一. 加载数据

  1. 加载内部数据
    from sklearn import datasets
    datasets里的数据都含有两个对象(n_samples, n_features), dataset.data和dataset.target, dataset.images使用.
    (1). 加载波士顿房价数据集(regression):load_boston([return_X_y])
    (2). 加载鸢尾属植物数据集(classification):load_iris([return_X_y])
    (3). 加载糖尿病数据集(regression): load_diabetes([return_X_y])
    (4). 加载digits数据集(classification): load_diabetes([return_X_y])
    (5). load_linnerud([return_X_y]) :Load and return the linnerud dataset (multivariate regression).
    (6). load_wine([return_X_y]): Load and return the wine dataset (classification).
    (7). load_breast_cancer([return_X_y]): Load and return the breast cancer wisconsin dataset (classification).
    (8). 加载图片数据集: load_sample_im

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值