【Coursera】Machine learning - week6 : Advice for Applying Machine Learning

本文链接：https://blog.csdn.net/u011332631/article/details/51008909

之前的几个周一直没有写，这个周才突然意识到应该写一下博客，因此现在才开始，后面再补好了。

这个文章的目的，主要在于梳理一下视频中的知识点。

1、train set、validation set、test set

Training set: A set of examples used for learning, which is to fit the parameters [i.e., weights] of the classifier.
Validation set: A set of examples used to tune the parameters [i.e., architecture, not weights] of a classifier, for example to choose the number of hidden units in a neural network.
Test set: A set of examples used only to assess the performance [generalization] of a fully specified classifier.

上述Ripley, B.D是对训练集、验证集和测试集的解释。而我个人对它们的理解，则是如下：

train set：如名字所说，它是用于训练的集合，是希望通过数据得到该模型在对应数据下的最佳参数，简而言之，train set决定了参数的选择。比如对于一个线性回归来说，它决定了theta的取值。

validation set：该集合的作用是对模型结构的选择。如视频中提到的线性回归。我们首先用对不同幂次d的模型在train set上进行拟合，然后再在validation set上测试其效果。那么简化来看，其实是在以validation set作为训练数据，以模型的幂次d为参数，在validation集上面取到一个最优的值。因此说validation set的主要作用是对模型进行选择。

test set：前面两个集的作用，分别是模型的训练和选择，那么我们还需要一个集合，来测试我们当前已经选择好的模型的表现如何。那么test集的作用就是评测所得模型的效果。而不直接用validation error来作为模型的评测结果的原因，是因为我们是在validation set上取的最优值，因此其在validation set上的效果肯定是较好的，所以才需要用test set来进行测试。

2、bias and variance

bias，即某个模型的期望输出与目标输出的相同程度的度量，其中bias越高，代表期望与目标相差越远。

variance，即某个模型在面对不同的数据时，它的期望输出发生变动的程度。（这里与我们平时见到的方差是同一概念）