Python机器学习算法基础第五天

最新推荐文章于 2024-08-10 23:14:03 发布

elly_yang

最新推荐文章于 2024-08-10 23:14:03 发布

阅读量46

点赞数

分类专栏： Python机器学习算法基础文章标签： python 机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/elly_yang/article/details/131634117

版权

Python机器学习算法基础专栏收录该内容

4 篇文章 0 订阅

订阅专栏

数据的划分和介绍：

数据：
- 训练集（占大多数，常用75%）：用来建立模型
- 测试集（占小部分，常用25%）：用来评估模型

用来划分数据集的API：
sklearn.model_selection.train_test_split

sklearn.database

加载获取流行数据集
datasets.load_*()
- 获取小规模数据集，数据包含在datasets里
datasets.fetch_*(data_home=None)
- 获取大规模数据集，需要从网络上下载，函数的第一个参数是data_home，表示数据集下载的目录，默认是~/scikit_learn_data/

数据集分割：

sklearn.model_selection.train_test_split(*arrays,**options)
- x，数据集的特征值
- y，数据集的标签值
- test_size，测试集的大小，一般为float
- random_state，随机数种子，不同的种子会造成不同的随机采样结果。相同的种子采样结果相同
- return，训练集特征值，测试集特征值，训练标签，测试标签（默认随机取）。返回顺序固定不变

转换器和估计器：
数据集 --> fit_transform(X) --> 转换后的数据集
fit_transform(X) = fit() + transform()
fit()求平均值标准差
transform()求值

估计器（estimator），是一类实现了算法的API：
第一步：调用fit，fit(x_train, y_train)，建立模型
第二步：输入测试集数据，评估模型，y_predict = predict(x_test)或者score(x_test, y_test)
socre()为预测的准确率

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python机器学习算法基础第五天

Python自学
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。