sklearn——数据集调用及应用

最新推荐文章于 2024-04-21 19:26:35 发布

WoLykos

最新推荐文章于 2024-04-21 19:26:35 发布

阅读量1k

点赞数 1

分类专栏： Python学习 # 机学库之sklearn 数据获取与数据处理

本文链接：https://blog.csdn.net/WoLykos/article/details/99018256

版权

本文介绍了如何使用sklearn库调用内置数据集，以Iris数据集为例展示了数据集的关键信息，并探讨了评估聚类效果的轮廓系数。

摘要由CSDN通过智能技术生成

忙了许久，总算是又想起这边还没写完呢。
　　那今天就写写sklearn库的一部分简单内容吧，包括数据集调用，聚类，轮廓系数等等。

自带数据集API

数据集函数	中文翻译	任务类型	数据规模
load_boston	Boston房屋价格	回归	506*13
fetch_california_housing	加州住房	回归	20640*9
load_diabetes	糖尿病	回归	442*10
load_digits	手写字	分类	1797*64
load_breast_cancer	乳腺癌	分类、聚类	(357+212)*30
load_iris	鸢尾花	分类、聚类	(503)4
load_wine	葡萄酒	分类	(59+71+48)*13
load_linnerud	体能训练	多分类	20

提取信息关键字：

DESCR：数据集的描述信息
data：内部数据
feature_names：数据字段名
target：数据标签
target_names：标签字段名(回归数据集无此项）

开始提取

　　以load_iris为例。


# 导入是必须的
from sklearn.datasets import load_iris
iris = load_iris()


iris  # iris的所有信息，包括数据集、标签集、各字段名等

　　这个输出太长太乱，而且后边也有，我就不复制过来了


iris.keys()  # 数据集关键字

dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names'])


descr = iris['DESCR']
data = iris['data']
feature_names = iris['feature_names']
target = iris['target']
target_names = iris['target_names']


descr

'Iris Plants Database\n====================\n\nNotes\n-----\nData Set Characteristics:\n :Number of Instances: 150 (50 in each of three classes)\n :Number of Attributes: 4 numeric, predictive attributes and the class\n :Attribute Information:\n - sepal length in cm\n - sepal width in cm\n - petal length in cm\n - petal width in cm\n - class:\n - Iris-Setosa\n - Iris-Versicolour\n - Iris-Virginica\n :Summary Statistics:\n\n ============== ==== ==== ======= ==

最低0.47元/天解锁文章

WoLykos

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
sklearn——数据集调用及应用

忙了许久，总算是又想起这边还没写完呢。　　那今天就写写sklearn库的一部分简单内容吧，包括数据集调用，聚类，轮廓系数等等。自带数据集API数据集函数中文翻译任务类型数据规模 load_boston Boston房屋价格回归 506*13 fetch_california_housing 加州住房回归 2064...
复制链接

扫一扫