统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。也称为统计机器学习。
主要特点:1.以计算机及网络为平台,2.以数据为研究对象,3.对数据进行预测与分析,4.以方法为中心。
从数据出发,提取特征,抽象出数据的模型,发现数据中的只是,又回到对数据的分析和预测中去。
统计学习分为:监督学习,非监督学习,半监督学习,和强化学习。
统计学习的三要素:1,模型。2,策略。3,算法。
实现统计学习方法的步骤:
1.得到一个有限的训练数据集合,2.确定包含所有可能的模型的假设空间,即学习模型的集合。
3.确定模型选择的准则,即学习的策略。4.实现求解最优模型的算法,即学习的算法。
5.通过学习方法选择最优模型。6.利用学习的最优模型对新的数据进行预测和分析。
监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。
回归问题:输入变量与输出变量均为连续变量的预测问题。
分类问题:输出变量为有限个离散变量的预测问题
标注问题:输入变量与输出变量均为变量序列的预测问题
求解最优化问题:经验风险最小化