学习sklearn的一些收获

最新推荐文章于 2023-11-05 14:29:53 发布

电击小子8686

最新推荐文章于 2023-11-05 14:29:53 发布

阅读量872

点赞数

文章标签： sklearn 人工智能 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_61613813/article/details/120880990

版权

本文分享了学习sklearn库的心得体会，探讨了它在机器学习项目中的重要作用。通过实例展示了sklearn如何简化数据预处理、模型选择和评估等步骤，强调了其在Python人工智能领域中的不可或缺地位。

摘要由CSDN通过智能技术生成

scikit-learn（sklearn）

它是一个简单有效的数据挖掘和数据分析工具，可以在各种环境下重复使用，建立在numpy，scipy，matplotlib基础之上，对常用算法进行了封装，它的基本模块有数据预处理、数据降维、模型选择、分类、聚类、和回归6个。若对算法不精通，我们只需要简单调用库里的模块就可以执行建模任务。

datasets（sklearn自带的数据集，供用户学习，数据编列比较规范，可以使用data、target、feature_names、DESCR分别获取数据、标签、特征名、描述信息）

数据预处理

model_selection（模型选择模块，提供了划分数据集train_test_split函数，正常数据量的时候将数据集分成训练集，测试集和验证集，典型的是0.5（训练）：0.25（测试）：0.25（验证），具体视实际出发，当数据量小的时候，采取K折交叉验证法（K-1:1轮流实验，将误差平方和的均值作为最优模型结构的依据）

precessing（数据预处理模块，提供了标准化函数来将数据标准化）

decompisition（特征分解模块，提供降维函数来简化数据集特征维度）

train_test_split（）//划分数据集

参考教材中使用方式：

X_data_train,X_data_test,X_target_train,X_target_test =\ train_test_split(X_data,X_target,test_size=0.2,random_state=?) //将数据集X的数据和标签分为训练集和测试集

test_size:可以为浮点、整数或None，默认为None

①若为浮点时，表示测试集占总样本的百分比

②若为整数时，表示测试样本样本数

③若为None时，test size自动设置成0.25

train_size:可以为浮点、整数或None，默认为None

①若为浮点时，表示训练集占总样本的百分比

②若为整数时，表示训练样本的样本数

③若为None时，train_size自动被设置成0.75

random_state:可以为整数、RandomState实例或None，默认为None

①若为None时，每次生成的数据都是随机，可能不一样

②若为整数时，每次生成的数据都相同

stratify:可以为类似数组或None

最低0.47元/天解锁文章

电击小子8686

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

电击小子8686 CSDN认证博客专家 CSDN认证企业博客

码龄3年

1: 原创

144万+: 周排名

119万+: 总排名

871: 访问

: 等级

10: 积分

0: 粉丝

0: 获赞

0: 评论

2: 收藏

私信

关注

热门文章

学习sklearn的一些收获 872

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。