机器学习---训练集与测试集

你去水果摊上买水果,怎么看水果好坏?
评价标准是:新鲜程度

你建立了机器学习的模型,又怎么判断这个模型好坏?
接下来我们要讲的概念机器学习模型(机器学习方法)的评价标准,会涉及到一些概念。

处理数据时我们要发现:
数据是用来训练机器的,让机器学习的。
机器学完之后的状态会有很多种,比如拟合的有一点点不标准【状态1】,拟合的没有错误【状态2】,拟合的非常均匀【状态3】等等。
拟合好了也就是学完了之后,我们拿到新的数据来,对机器说,帮我看看这个数据处理结果。
这时候又会有很多状态,比如这个新的数据在状态1底下很优秀,在状态2底下还可以,在状态3底下反而出错了。
那是因为,状态1大致情况下都是对的,泛化程度较好,状态3过于细化,仅仅满足给定的值遇到新值就分错了。
所有我们要想办法在已有数据下,让机器学到一个最好的状态,这个状态不要求把原始数据分全对,而是要求用较高正确率识别新值。
措施:
把已有的数据集按照一定的比例分成两份,一份用来给机器学习,另一份当成试卷用来检测学习结果,我们选择答卷较好的算法。这样有新值来了就能有较高的正确率了。
用来给机器学习的那一份数据叫:训练集。用来检测的拿分数据叫:测试集。
注意,我们不能把测试集用来训练,就像我们不能把以后要考的期末试卷拿来当习题一样。

在代码中:
使用 sklearn 可以轻松地将数据集拆分为训练数据和测试数据。
我们只需输入 train_test_split 命令。

from sklearn.model_selection import train_test_split
X_train, X_test = train_test_split(X,  test_size = 0.25)

第一个X参数是
numpy处理好的数据。
第二个参数 test_size 是我们想用作测试数据的点所占百分比。
在上述调用中,我们使用 ,75% 作为训练数据,25% 的数据作为测试数据。
分别用X_train, X_test 接收。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值