机器学习---训练集与测试集

最新推荐文章于 2023-09-30 10:52:04 发布

I_AM_KK

最新推荐文章于 2023-09-30 10:52:04 发布

阅读量1k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/I_AM_KK/article/details/105302965

版权

机器学习专栏收录该内容

12 篇文章 2 订阅

订阅专栏

你去水果摊上买水果，怎么看水果好坏？
评价标准是：新鲜程度

你建立了机器学习的模型，又怎么判断这个模型好坏？
接下来我们要讲的概念机器学习模型（机器学习方法）的评价标准，会涉及到一些概念。

处理数据时我们要发现：
数据是用来训练机器的，让机器学习的。
机器学完之后的状态会有很多种，比如拟合的有一点点不标准【状态1】，拟合的没有错误【状态2】，拟合的非常均匀【状态3】等等。
拟合好了也就是学完了之后，我们拿到新的数据来，对机器说，帮我看看这个数据处理结果。
这时候又会有很多状态，比如这个新的数据在状态1底下很优秀，在状态2底下还可以，在状态3底下反而出错了。
那是因为，状态1大致情况下都是对的，泛化程度较好，状态3过于细化，仅仅满足给定的值遇到新值就分错了。
所有我们要想办法在已有数据下，让机器学到一个最好的状态，这个状态不要求把原始数据分全对，而是要求用较高正确率识别新值。
措施：
把已有的数据集按照一定的比例分成两份，一份用来给机器学习，另一份当成试卷用来检测学习结果，我们选择答卷较好的算法。这样有新值来了就能有较高的正确率了。
用来给机器学习的那一份数据叫：训练集。用来检测的拿分数据叫：测试集。
注意，我们不能把测试集用来训练，就像我们不能把以后要考的期末试卷拿来当习题一样。

在代码中：
使用 sklearn 可以轻松地将数据集拆分为训练数据和测试数据。
我们只需输入 train_test_split 命令。

from sklearn.model_selection import train_test_split
X_train, X_test = train_test_split(X,  test_size = 0.25)

第一个X参数是
numpy处理好的数据。
第二个参数 test_size 是我们想用作测试数据的点所占百分比。
在上述调用中，我们使用，75% 作为训练数据，25% 的数据作为测试数据。
分别用X_train, X_test 接收。

I_AM_KK

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
机器学习---训练集与测试集

你去水果摊上买水果，怎么看水果好坏？评价标准是：新鲜程度你建立了机器学习的模型，又怎么判断这个模型好坏？接下来我们要讲的概念机器学习模型（机器学习方法）的评价标准，会涉及到一些概念。...
复制链接

扫一扫

专栏目录