这篇文章是对李航老师的《统计学习方法》同名章节的一个总结,李航老师在书中把统计学习分为了三个要素:模型,策略和算法。我个人感觉这是一个思路很清楚的划分,学习这部分内容,不一定能帮你答题,但有助于从一个更宏观的视角来看统计知识,在这里,我也会以线性回归为例,讲一讲模型,策略和算法的内容。
模型就是指你选择的统计模型,比如决策树,支持向量机,贝叶斯网络等等,这些听着太高大上了,我们常见的线性回归,逻辑回归也是统计模型的一种。以线性回归为例,我们选择线性回归分析数据时,其实就假定了x和y之间的存在线性关系,但x和y之间是不是确实存在线性关系,我们还需要进一步检验,这就是为什么统计学家说:“All models are wrong, but some are useful。”
策略其实就是我们使用什么方法构建最优模型,通常来讲,我们会通过最小化损失函数来构建一个模型。百度给出的损失函数的定义是:损失函数是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。这一听就很麻烦,而且头大,进一步会导致眼花。
简单来说,损失函数就是计算预测值和真实值差异的函数,以线性回归为例,它的损失函数就是预测值和真实值差异的平方和,看下面这