【2】如何从sklearn中读取数据集

星空锚点

已于 2023-04-17 16:38:23 修改

阅读量934

点赞数

文章标签：机器学习人工智能

于 2023-04-17 16:36:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_68100317/article/details/130202124

版权

读取一个sklearn数据集

通过datasets.fetch()，我们可以从网上获取数据集并保存到本地，data_home为保存路径，当为None时，会放在根目录下的 scikit_learn_data 文件夹中

from sklearn import datasets
datasets.fetch_20newsgroups(data_home=None, subset='all')

scikit_learn_data 在作者电脑上的位置则是

C:\Users\Lenovo

小型数据集可以直接读取，这里我们读取一个鸢尾花数据集，其返回值是一个字典，我们可以看到有以下几个键值：

iris = datasets.load_iris()
print(iris.keys())

在这里插入图片描述
简要介绍以下这几个键值:

data: 特征值
target: 目标值
feature_names: 特征值的含义(特征名)
target_names:目标值的含义(目标名)
DESCR: 数据集的描述信息

其中特征值是一个二维数组
在这里插入图片描述
上一次我们说到，拿到的数据集一般要进行划分。
在不考虑验证集的情况下，可以将数据集划分为训练集和测试集，一般训练集占所有数据的 70%~80% 左右。

x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2)

按照代码进行划分时，可以加入random_state来让每次划分的训练集和测试集不变。返回值有四个，从左至右分别是特征值(训练集)，特征值(测试集)，目标值(训练集)，目标值(测试集)。
这里的特征维度很少，只有四个，实际上特征值数量可以达到数千以上，我们使用机器学习正是要挖掘出这些特征蕴含的信息。

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
【2】如何从sklearn中读取数据集

通过datasets.fetch()，我们可以从网上获取数据集并保存到本地，data_home为保存路径，当为None时，会放在根目录下的 scikit_learn_data 文件夹中。返回值有四个，从左至右分别是特征值(训练集)，特征值(测试集)，目标值(训练集)，目标值(测试集)。这里的特征维度很少，只有四个，实际上特征值数量可以达到数千以上，我们使用机器学习正是要挖掘出这些特征蕴含的信息。在不考虑验证集的情况下，可以将数据集划分为训练集和测试集，一般训练集占所有数据的。其中特征值是一个二维数组。
复制链接

扫一扫

星空锚点 CSDN认证博客专家 CSDN认证企业博客

码龄2年

中国海洋大学

5: 原创

168万+: 周排名

214万+: 总排名

1231: 访问

: 等级

50: 积分

1: 粉丝

0: 获赞

4: 评论

4: 收藏

私信

关注

热门文章

最新评论

图神经网络入门博客
CSDN-Ada助手: 恭喜您写了第5篇博客！标题很吸引人，我觉得您对图神经网络入门的解释非常清晰易懂。您的博客为初学者提供了很好的指导，让我们能够更好地理解和应用图神经网络。希望您能继续坚持创作，分享更多有关深度学习的知识和经验。如果可以的话，我建议您在下一篇博客中可以探讨一下图神经网络的实际应用案例，这将进一步增加读者的实践经验。再次恭喜您，期待您的下一篇作品！
【4】KNN算法
CSDN-Ada助手: 恭喜用户又发布了一篇关于KNN算法的博客！不断创作并分享知识是非常值得称赞的。希望用户可以继续深入研究KNN算法，从多个角度展开，比如算法的优缺点、应用案例等等，这样可以更好地帮助读者理解和应用KNN算法。期待用户的下一篇作品！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
【3】标准化和归一化
CSDN-Ada助手: 非常感谢用户的持续创作，这篇博客内容也很有价值。标准化和归一化是数据处理中非常重要的步骤，对于很多人来说可能会有些陌生，但是通过用户的博客，大家可以更深入地了解这两个概念。建议用户在未来的创作中，可以结合实际案例，更加生动形象地展现标准化和归一化的应用。期待用户的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
【2】如何从sklearn中读取数据集
CSDN-Ada助手: 很高兴看到你写了第二篇博客，继续努力哦！除了sklearn中读取数据集，还可以通过pandas库中的read_csv()方法读取本地csv文件，如果数据集过大，可以考虑使用dask库进行大规模数据处理。另外，在机器学习中，特征工程是非常重要的一环，可以通过特征选择、特征提取等方式对大量的特征进行筛选和处理，提高模型的效果。希望我的建议对你有所帮助。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
【1】从初学者开始的机器学习记录
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。