检验是否过拟合
将数据分成训练集和测试集
通常用70%的数据作为训练集,用剩下30%的数据作为测试集。
很重要的一点是训练集和测试集均要含有各种类型的数据,通常我们要对数据进行洗牌,然后再分成训练集和测试集。
![1](https://i-blog.csdnimg.cn/blog_migrate/e8dc7bf2d57403b14938db9897fd0bff.png)
使用训练集对模型进行训练
可以得到一系列参数 theta
使用测试集对模型进行测试
使用测试集数据对模型进行测试,有两种方式计算误差
线性回归模型
利用测试集数据计算代价函数J
![2](https://i-blog.csdnimg.cn/blog_migrate/2480eca2ce259e1a02615afa1d670deb.png)
逻辑回归模型
除前述方法,还可使用一种 错误分类(misclassification error)(也称0/1错误分类 zero one misclassification error)
的方法
![3](https://i-blog.csdnimg.cn/blog_migrate/ee547529aa4763ba08f17f020997d072.png)