打卡:day1.线性回归算法梳理
- 机器学习的一些概念
有监督、无监督、泛化能力、过拟合欠拟合(方差和偏差以及各自解决办法)、交叉验证
有监督、无监督:
有监督学习:针对有很多特征的数据集,进行有标签或者目标的学习为有监督学习;
无监督学习:针对有很多特征的数据集,试图显式或者隐式地学习出概率分布为无监督学习。
传统上,将回归、分类或者结构化输出问题称为监督学习,将支持其他任务的密度估计称为无监督学习。
泛化能力、过拟合或欠拟合(方差和偏差以及各自解决办法):
模型训练中,将训练样本自身的一些特点当成了所有潜在样本都具备的一般性质,即过拟合。与过拟合相对应的是欠拟合,指对训练样本的一般性质尚未学好。
泛化能力即指在测试集上的适用能力。
泛化误差由偏差、方差和噪声组成。偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力,方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响。噪声则表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。 所以泛化能力是由学习算法的能力、数据的充分性以及学习任务本身的难度共同决定的。为了避免欠拟合,则要使偏差较小,即充分拟合数据;为了避免过拟合,则要使方差较小。
交叉验证:
交叉验证:将数据集划分为k个不重合的子集,每次用k-1个子集的并集作为训练集,余下的为测试集,即可获得k组训练/测试集,从而可进行k次训练和测试,最终返回的是这k个测试结果的均值。
-
线性回归的原理
线性回归在假设特证满足线性关系,根据