线性回归算法梳理
1.机器学习的一些概念
1.1有监督
监督,通俗来讲就是分类,就是把训练样本,在某种评价下得到最佳的模型,然后再利用这个模型将输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的。
1.2无监督
无监督,我们事先没有任何训练样本,而直接对数据进行建模。比如我们去参观一个画展,我们完全对艺术一无所知,但是欣赏完多幅作品之后,我们也能把它们分成不同的派别。
1.3泛化能力
学习方法的泛化能力(generalization ability)是指由该学习方法学习到的模型对位置数据的预测能力,是学习方法本质上重要的性质。
1.4过拟合与欠拟合
过拟合(over-fitting):如果一味追求提高对训练数据的预测能力,所选模型的复杂程度则往往会比真模型高。这种现象称为过拟合(over-fitting)。简言之,也就是学习器把训练样本学得“太好”了得时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一些性质,这样就会导致泛化能力差。过拟合图如下:
解决过拟合的方法:正则化(regularization),正则化是结构风险最小化策略的实现,是在经验风险上加一个正则项(regualrizer)或惩罚项(penalty term)。
欠拟合(underfitting):是指是对训练样本的一