scikit-learn：0.1. 数据集格式和预测器

最新推荐文章于 2025-09-21 22:52:10 发布

翻译最新推荐文章于 2025-09-21 22:52:10 发布 · 3.4k 阅读

文章标签：

#scikit-learn #机器学习 #数据挖掘

scikit-learn 同时被 2 个专栏收录

51 篇文章

订阅专栏

scikit-learn

35 篇文章

订阅专栏

本文详细介绍了使用scikit-learn处理数据集、构建预测模型的过程，包括数据集的加载与预处理，以及如何使用预测器进行训练与预测。通过实例演示了如何将非二维数据转换为适合scikit-learn使用的格式，并展示了模型训练及预测的基本步骤。

http://scikit-learn.org/stable/tutorial/statistical_inference/settings.html

1、数据集：

数据集都是2维的，第一维度是“样本维”，第二维度是“特征维”。

>>> from sklearn import datasets
>>> iris = datasets.load_iris()
>>> data = iris.data
>>> data.shape
(150, 4)

说明有150个样本，每个样本由4个特征描述。

如果原始数据不是 (m_samples, n_features)的形状，在使用scekit-learn之前需要预处理成2维的，常见的是图片数据处理：

>>> digits = datasets.load_digits()
>>> digits.images.shape
(1797, 8, 8)

将每个8*8维的图像转换为feature长度为64的数据：

>>> data = digits.images.reshape((digits.images.shape[0], -1))

2、预测器：

预测器从数据集中学习，构建预测模型。

所有预测器使用fit方法从2维数据集中学习，构建模型：

>>> estimator.fit(trainData)

预测器构建好预测模型后，通过predict方法对未知数据集进行预测（分类、回归、聚类等等）：

>>> estimator.predict(textData)

当然，也可以查看预测器构建的预测模型的一些参数：

>>> estimator.estimated_param_

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

mmc2015

关注关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

使用scikit-learn进行支持向量回归（SVR）的基本应用

FdmPatch的博客

09-17

304

支持向量回归（Support Vector Regression，SVR）是一种机器学习算法，用于处理回归问题。它是基于支持向量机（Support Vector Machine，SVM）算法的变种。在scikit-learn库中，我们可以使用SVR类来实现SVR算法，并进行回归任务。下面我们将介绍scikit-learn中SVR的基本应用，包括数据准备、模型训练和预测。

Scikit-learn：Python 机器学习库的全面指南

candy的博客

05-12

625

Scikit-learn是Python中广泛使用的机器学习库，提供丰富的工具和算法，支持数据挖掘和数据分析。其核心特点包括统一的API设计、高效的实现、良好的文档和易于扩展性。Scikit-learn适用于多种机器学习任务，如分类、回归、聚类和降维，但不擅长处理深度学习和超大规模数据。通过Pipeline和GridSearchCV等工具，用户可以简化工作流程并进行超参数调优。尽管存在一些局限性，Scikit-learn通过与其他库（如Dask、TensorFlow）的集成，能够满足更复杂的需求。

参与评论您还未登录，请先登录后发表或查看评论

sklearn机器学习iris数据集（含说明）

12-22

具体说明见：http://blog.csdn.net/java1573/article/details/78865495

Scikit-learn_回归算法_支持向量机回归

feizuiku0116的博客

09-08

1795

一.描述支持向量机属于监督学习方法，不仅可以用于分类，还可以用于回归。 SVR回归模型 NuSVR回归模型 LinearSVR回归模型二.用法和参数支持向量机回归模型有很多参数，比较重要的有kernel参数和C参数。 kernel参数用来选择内核算法 C是误差项的惩罚参数，取值一般为10的整数次幂，如0.001， 0.1，1000等 C值越大，对误差项的惩罚越大，因此训练集测试时准确率就高，但泛化能力弱 C值越小，对误差项的惩罚越小，因此容错能力越强，泛化能力也相对越强三.实例随

python--scikit-learn构建模型

weixin_46361294的博客

07-13

2914

datasets模块常用数据集加载函数及其解释 sklearn自带数据集内部信息获取将数据集划分为训练集和测试集为了保证模型在实际系统中能够起到预期作用，数据量多的时候，一般需要将样本分成独立的三部分：训练集（train set）：估计模型、验证集（validation set）：确定网络结构或者控制模型复杂程度的参数、测试集（test set）：检验最优模型的性能。典型划分方式训练集50%、验证集25%、测试集25%。；数据量较少的时候，常用的方法是留少部分做测试机，然后对其余N个样本采用

【Sklearn】3种模型保存的文件格式及调用方法

qq_35789269的博客

06-21

6156

在我们基于训练集训练了sklearn模型之后，常常需要将预测的模型保存到文件中，然后将其还原，以便在新的数据集上测试模型或比较不同模型的性能。其实把模型导出的这个过程也称为「对象序列化」-- 将对象转换为可通过网络传输或可以存储到本地磁盘的数据格式，而还原的过程称为「反序列化」。本文将介绍实现这个过程的三种方法，每种方法都有其优缺点：1.Pickle[1]，这是用于对象序列化的标准 Python 工具。2.Joblib[2] 库，它可以对包含大型数据数组的对象轻松进行序列化和反序列化。

深入浅出 Scikit-learn：从入门到实战的机器学习工具包指南

最新发布

2302_76568160的博客

09-21

1289

数据洞察：泰坦尼克号生存与 “性别”（女性生存率高）、“舱位”（一等舱生存率高）、“家庭人数”（小家庭生存率高）强相关；特征工程：提取 “头衔”“家庭分组” 等新特征，显著提升模型性能；模型性能：梯度提升模型经调优后测试集准确率约 85%，是本次项目的最优模型；部署准备：已保存模型和预处理工具，可直接封装为 API 供业务使用。

Python 与 scikit - learn：数据预处理的秘密武器

Python编程之道的博客

04-26

863

在当今的数据驱动时代，大量的数据被产生和收集。然而，原始数据往往存在着各种问题，如缺失值、异常值、数据类型不匹配等。数据预处理是数据挖掘、机器学习等领域中至关重要的一步，它直接影响到后续模型的性能和效果。本文的目的是介绍如何使用 Python 和 scikit - learn 库进行高效的数据预处理。范围涵盖了常见的数据预处理技术，如数据清洗、特征缩放、特征编码等。本文将按照以下结构进行组织：首先介绍核心概念与联系，让读者对数据预处理有一个整体的认识；

机器学习实践：使用 scikit-learn 对 UCI 乳腺癌数据集进行分类

编程技术探索者，分享C/C++、C#、Java、数据库等开发经验，聚焦实战技巧与AI兴趣，助力编程爱好者成长。

07-29

1213

机器学习实践：乳腺癌分类摘要本文详细介绍了使用scikit-learn对UCI乳腺癌数据集进行分类分析的完整流程。首先介绍了数据集背景，包含569个样本和30个特征，用于区分良恶性乳腺癌。随后讲解了数据预处理步骤，包括标准化处理和训练测试集划分。在模型构建部分，采用决策树算法并详细说明了优化方法，包括网格搜索超参数调优。结果显示优化后的模型准确率达到96%。文章还提供了特征重要性分析方法，帮助理解关键影响因素。整个过程涵盖了机器学习项目的主要环节，从数据准备到模型评估，为医疗数据分析提供了实用范例。

【Python学习】人工智能-机器学习工具包Scikit-learn

墨夶的博客

11-12

1150

通过本文，你应该已经学会了如何使用 Scikit-learn 进行数据预处理、模型训练、评估和调优。Scikit-learn 提供了丰富的工具和方法，使得机器学习变得更加简单和高效。希望本文对你有所帮助，祝你在机器学习的道路上取得更大的进步！

两类label(0,1)的MNIST数据集

05-08

只有两类label(0,1)的MNIST数据集，应用于二分类问题。

机器学习框架sklearn之可用数据集

David_house的博客

02-10

358

sklearn全称scikit-learn，是针对Python 编程语言的免费软件机器学习库，它提供了大量用于测试学习算法的数据集。

使用 scikit-learn 构建模型

西门催学不吹雪

02-19

2857

文章目录1. sklearn 介绍2. sklearn 转换器处理数据2.1 加载数据集2.2 划分数据集3. 聚类模型4. 分类模型5. 回归模型 1. sklearn 介绍 scikit-learn（简称 sklearn）是一个简单有效的数据挖掘和数据分析工具，可以提供用户在各种环境下重复使用。而且 sklearn 建立在 Numpy、Scipy 和 Matplotlib 基础之上，对一些...

python sklearn下载-Python的Sklearn库中的数据集

weixin_39622905的博客

11-11

2611

一、Sklearn介绍scikit-learn是Python语言开发的机器学习库，一般简称为sklearn，目前算是通用机器学习算法库中实现得比较完善的库了。其完善之处不仅在于实现的算法多，还包括大量详尽的文档和示例。其文档写得通俗易懂，完全可以当成机器学习的教程来学习。二、Sklearn数据集种类sklearn 的数据集有好多个种自带的小数据集（packaged dataset）：sklearn...

scikit-learn 中的设置以及预估对象

蝉之洞

03-26

978

数据集Scikit-learn可以从一个或者多个数据集中学习信息，这些数据集合可表示为2维阵列，也可认为是一个列表。列表的第一个维度代表样本，第二个维度代表特征（每一行代表一个样本，每一列代表一种特征）。样例: iris 数据集（鸢尾花卉数据集）>>>>>> from sklearn import datasets >>> iris =...

scikit-learn的数据集

xiaojkql的博客

12-10

699

数据集是在datasets这个对象中，所以要从sklearn导入datasets这个模块。 1.载入数据集，例如diabetes数据集 diabetes = datasets.load_diabetes() 2.数据集datasets的格式： datasets.load_diabetes()返回的是一个对象，该对象中包含data，target这两个属性，代表的是ndarray，或者直...

scikit-learn：加载自己的原始数据

mmc2015的专栏

07-12

1万+

这里不讨论加载常用的公用数据集，而是讨论加载自己的原始数据（即，实际中遇到的数据） http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_files.html#sklearn.datasets.load_files sklearn.datasets.load_files(

sklearn基础篇（一）-- datasets数据集

CarpeDiem

10-19

1万+

本篇主要结合学习的内容，整理了sklearn中的datasets数据集，包括加载数据集、数据集分割、查看数据集分布，并介绍了通用数据集、真世界中的数据集、并介绍如何生成数据和导入本地数据。

Sklearn提供的常用数据集