将sklearn.datasets库下的数据集保存到本地Excel表格中

最新推荐文章于 2024-04-08 12:44:46 发布

置顶书山矿工

最新推荐文章于 2024-04-08 12:44:46 发布

阅读量4.6k

点赞数 5

本文链接：https://blog.csdn.net/litao_243/article/details/79911928

版权

Python下的sklearn库的datasets模块下有load_breast_cancer（）（乳腺癌数据集），load_iris( ) (鸢尾花)等数据集，

将这些数据集保存在本地，可以很方便观察，处理这些数据集。这里以load_breast_cancer()数据集为例进行操作

import pandas as pd
from sklearn.tree import export_graphviz
from sklearn import tree
from sklearn.datasets import load_breast_cancer
data = load_breast_cancer()#从sklearn.datasets下载良/恶性肿瘤预测数据

#将breast_cancer数据存入Excel表格
outputfile = "D:/PYdata/cancer.xls"
column = list(data['feature_names'])
df = pd.DataFrame(data.data,index=range(569),columns= column)
pf = pd.DataFrame(data.target,index=range(569),columns=['outcome'])

jj = df.join(pf,how='outer')#用到DataFrame的合并方法，将data.data数据与data.target数据合并

jj.to_excel(outputfile)#将数据保存到outputfile文件中

load_iris()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

书山矿工

关注关注

5
点赞
踩
9

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

【Python机器学习系列】sklearn机器学习模型的保存---pickle法_sklearn excel python 读取保存

2401_84009317的博客

04-13

237

这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新**

将sklearn中的数据下载到本地

qq_52487370的博客

04-13

2607

机器学习

3 条评论您还未登录，请先登录后发表或查看评论

sklearn中数据集与xlsx文件的互转

gky9989的博客

02-16

2768

（以玩具数据集iris为例）将数据集转存为xlsx文件： import pandas as pd import numpy as np from sklearn import datasets lst1, lst2 = iris.data, iris.target#lst1是训练集中的x,lst2是训练集中的y xi = ['x'+str(i+1) for i in range(len(lst...

使用python下载数据集后如何保存在本地

weixin_42590539的博客

01-13

637

在 Python 中可以使用第三方库如 urllib 或 requests 来下载数据集。下载完成后，可以使用 open 函数将数据集保存在本地，如下所示: import urllib.request# 下载数据集 urllib.request.urlretrieve("数据集的URL", "本地文件名.格式") # 或者使用 requests import requests data = ...

sklearn 的模型保存与加载使用

small-guo

07-18

3390

sklearn 的模型保存与加载使用

机器学习 - 数据集（.csv文件或.excel文件）的基本处理

seek0226的博客

06-25

1万+

Python - 对数据集（csv文件）的基本处理操作载入数据集数据集抽样数据集统计修改数据集1修改数据集2持更操作载入数据集 import pandas as pd data = pd.read_csv('数据集的文件路径或者URL'，header) # header为表头，默认为第0行，header = None 默认没有表头，会自动添加数字作为列数 数据集抽样显示数据集 data # 显示数据集 data.sample(int n) # 随机显示 n 条数据，默认n = 1 dat

4.sklearn—kmeans参数、及案例（数据+代码+结果）

最新发布

2401_84009679的博客

04-08

1008

通过上面的描述信息，我们可以知道该数据集包含150条数据，每50条数据属于一个类别，即有三个类别，每一条数据有四个特征。target_names 键对应的值是一个字符串数组，里面包含我们要预测的花的品种：输出：由此，我们可以知道鸢尾花数据集iris包含3类鸢尾花，分别为山鸢尾（Iris-setosa）、杂色鸢尾（Iris-versicolor）和维吉尼亚鸢尾（Iris-virginica）feature_names 键对应的值是一个字符串列表，对每一个特征进行了说明：输出：由此，我们可以知道每条数据

breast_cancer.xlsx

02-21

配套博客：https://blog.csdn.net/qq_41739364/article/details/113818246

Python-Sklearn内置数据集介绍与“三板斧”

rettbbetter的博客

02-03

4476

对sklearn中的内置数据集鸢尾花数据集（iris）和波士顿房价数据集（boston）以及手写数字数据集（digits）为例，学习查看sklearn中自带数据集的相关概论以及数据处理“三板斧”。

sklearn真实分类问题数据集下载

qq_44425179的博客

05-29

456

本节内容：下载常用的sklearn真实分类问题数据集，并保存为excel文件鸢尾花数据集糖尿病数据集手写数字红酒数据集乳腺癌数据集。

python-torch如何保存数据集，以yelp_review_full数据集为例

随笔

08-18

1091

python-torch如何保存数据集，以yelp_review_full数据集为例

鸢尾花(iris)数据集保存到本地以及sklearn其他数据集下载保存

Uncle_Perry的博客

11-03

1万+

鸢尾花数据集 问题起源在机器学习到分类问题时，使用sklearn下载数据集的时候，不是很明白具体怎么下载的，以及如何下载其他数据集，于是仔细思考了一番查看鸢尾花数据集 首先先看代码块 #从sklearn数据集导入我们要的iris数据集，iris数据集调用在下方 from sklearn.datasets import load_iris iris = load_iris() #数据集并不能直接用，通过pandas的DataFrame来转化 import pandas as pd #col是列名 col

sklearn.datasets使用方法(最详细)

yihanyifan的博客

12-08

9705

load_<dataset_name> 本地加载数据，保存在了本地磁盘上，本地加载数据，保存在..datasets\\data目录下的 datasets.load_boston #波士顿房价数据集 datasets.load_breast_cancer #乳腺癌数据集 datasets.load_diabetes #糖尿病数据集 datasets.load_digits #手写体数字数据集 datasets.load_files datasets.load_iris #鸢

sklearn基础篇（一）-- datasets数据集

CarpeDiem

10-19

1万+

本篇主要结合学习的内容，整理了sklearn中的datasets数据集，包括加载数据集、数据集分割、查看数据集分布，并介绍了通用数据集、真世界中的数据集、并介绍如何生成数据和导入本地数据。

机器学习-sklearn.datasets-load_iris数据集-回归算法和K近邻法(KNN)

qq_43923588的博客

07-29

4万+

学习机器学习一个月了，开始尝试做一些简单的问题，整体代码在文章最后这里写目录标题1、 load_iris数据集2、数据集处理3、线性回归3.1 回归训练3.2 回归测试3.3 对输入点进行判断4、K近邻(KNN)算法4.1 距离计算4.2 计算准确率4.3 k近邻法判断输入点类别5、绘制函数图像6、运行结果展示7、完整代码 1、 load_iris数据集 Iris数据集在模式识别研究领域应该是最知名的数据集了，有很多文章都用到这个数据集。这个数据集里一共包括150行记录，其中前四列为花萼长度，花萼宽度，花

sklearn下载数据集windows、linux默认目录

weixin_55802446的博客

09-16

1636

sklearn数据集默认目录位置

sklearn.datasets库中的红酒数据集

06-03

好的，那我们开始吧！ ## 实验报告 ### 1. 引言本实验使用KNN算法对sklearn.datasets库中的红酒数据集进行质量分类。在实验中，我们将首先介绍红酒数据集的特征，随后阐述KNN算法的原理和实现方法，最后给出实验结果和分析。 ### 2. 数据集介绍 sklearn.datasets库中的红酒数据集包含了红酒的13个物理化学特征和对应的质量评分。这些特征包括： - 酒精度数 - 丙二醇 - 挥发性酸度 - 柠檬酸 - 氯化物 - 游离二氧化硫 - 总二氧化硫 - 密度 - pH值 - 硫酸盐 - 稳定性 - 花青素 - 颜色强度 数据集共有178个样本，每个样本包含了13个特征和对应的质量评分。其中质量评分取值范围为3-8，共有3个等级，分别代表低、中、高质量。 ### 3. KNN算法原理 KNN算法是一种基于样本之间距离度量的分类算法。其基本思想是将未知样本与已知样本中最相似的K个样本进行比较，然后将未知样本归为K个样本中出现次数最多的类别。在KNN算法中，样本之间的距离度量通常使用欧几里得距离或曼哈顿距离。K值的选择通常通过交叉验证来确定。K值越小，分类器的复杂度越高，容易受到噪声的影响；K值越大，分类器的复杂度越低，但对于不规则的决策边界可能无法很好地进行分类。 ### 4. 实验方法本实验使用Python编程语言和scikit-learn机器学习库进行实现。首先，我们需要导入sklearn.datasets库中的红酒数据集，并将数据集分为训练集和测试集。在本实验中，我们将80%的数据用于训练，20%的数据用于测试。随后，我们使用sklearn.neighbors库中的KNeighborsClassifier类来构建KNN分类器。在构建分类器时，我们需要指定K值和距离度量方法。最后，我们使用训练集来训练KNN分类器，并使用测试集来评估分类器的性能。在评估性能时，我们使用准确率、精确率、召回率和F1值这四个指标来衡量分类器的性能。 ### 5. 实验结果和分析在本实验中，我们使用KNN算法对sklearn.datasets库中的红酒数据集进行质量分类。在实验中，我们将K值设置为5，并使用欧几里得距离作为距离度量方法。实验结果如下： | 指标 | 值 | | ---- | ---- | | 准确率 | 0.75 | | 精确率 | 0.67 | | 召回率 | 0.71 | | F1值 | 0.69 | 从实验结果可以看出，使用KNN算法对红酒数据集进行质量分类的准确率为0.75，精确率为0.67，召回率为0.71，F1值为0.69。这表明KNN算法在红酒质量分类中具有一定的效果。 ### 6. 结论本实验使用KNN算法对sklearn.datasets库中的红酒数据集进行质量分类。实验结果表明，KNN算法在红酒质量分类中具有一定的效果。在实际应用中，我们需要根据具体情况选择合适的K值和距离度量方法，以达到最佳的分类效果。