sklearn——数据集调用及应用

本文介绍了如何使用sklearn库调用内置数据集,以Iris数据集为例展示了数据集的关键信息,并探讨了评估聚类效果的轮廓系数。
摘要由CSDN通过智能技术生成

忙了许久,总算是又想起这边还没写完呢。
  那今天就写写sklearn库的一部分简单内容吧,包括数据集调用,聚类,轮廓系数等等。
 

自带数据集API

数据集函数 中文翻译 任务类型 数据规模
load_boston Boston房屋价格 回归 506*13
fetch_california_housing 加州住房 回归 20640*9
load_diabetes 糖尿病 回归 442*10
load_digits 手写字 分类 1797*64
load_breast_cancer 乳腺癌 分类、聚类 (357+212)*30
load_iris 鸢尾花 分类、聚类 (50*3)*4
load_wine 葡萄酒 分类 (59+71+48)*13
load_linnerud 体能训练 多分类 20

 

提取信息关键字:

  • DESCR:数据集的描述信息
  • data:内部数据
  • feature_names:数据字段名
  • target:数据标签
  • target_names:标签字段名(回归数据集无此项)
     

开始提取

  以load_iris为例。


# 导入是必须的
from sklearn.datasets import load_iris
iris = load_iris()

iris  # iris的所有信息,包括数据集、标签集、各字段名等

  这个输出太长太乱,而且后边也有,我就不复制过来了

 


iris.keys()  # 数据集关键字

dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names'])

 


descr = iris['DESCR']
data = iris['data']
feature_names = iris['feature_names']
target = iris['target']
target_names = iris['target_names']

descr

'Iris Plants Database\n====================\n\nNotes\n-----\nData Set Characteristics:\n :Number of Instances: 150 (50 in each of three classes)\n :Number of Attributes: 4 numeric, predictive attributes and the class\n :Attribute Information:\n - sepal length in cm\n - sepal width in cm\n - petal length in cm\n - petal width in cm\n - class:\n - Iris-Setosa\n - Iris-Versicolour\n - Iris-Virginica\n :Summary Statistics:\n\n ============== ==== ==== ======= ==

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

WoLykos

若对你有所帮助,请鼓励我一下~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值