统计学习方法李航
统计学习方法的三要素:
(1)模型
(2)策略
(3)算法
实现统计学习的步骤:
(1)得到用来训练模型和测试模型的数据集(输入和输出(实际值)+需要进行预测的输入数据)
(2)确定包含所有可能的模型的假设空间(模型的假设空间就是确定的带参的函数族,之所以说是有无数个是因为参数的选取相对来说是任意的),就是学习模型的集合
(3)确定怎么样在假设空间中的带参的无限多个函数中间来选取最终模型的准则(就是说应该给予什么约束来确定最终模型),这种准则就是学习的策略。
一般是用代价函数最为准则(策略)来确定最终模型的。代价函数指的就是带参的模型的估计值和实际值之间的差距(一般用以度量的代价函数就是平方损失,概率估计等),代价函数的选取就是确定学习的策略,还要加上规范化项(正则项)来约束这个模型(中的权重系数,使得权重系数不至于过大,因为权重系数过大可能会出现模型的过拟合,过拟合就是模型在训练样本中的估计情况比较好但是在测试样本中的表现就不行了)
(4)有上述第三步确定了是由代价函数和规范化项来约束模型参数的选取的,最优模型当然是约束下的代价函数和规范化项取得最小值时候的参数了,这里如何求得代价函数和规范化项的最小值的算法就是学习的算法了(学习的意思就是通过算法求解模型的参数)
学习的算法有梯度下降法,正规矩阵求解等多元函数求导方法
(5)通过学习方法(求解系数的算法)来求解最优模型
(6)利用求得的最优模型来对新数据(测试数据或者是需要进行预测的数据)进行模型的检验或者是用模型进行预判
监督学习(重点):具有输出数据(标签)(可以根据输入数据和输出数据的离散还是连续来分为分类,回归和标注)
无监督学习:不具有输出数据,仅具有输入数据(一般是聚类分析)