一.机器学习基于统计学的基本假设:
机器学习也称之为统计学习,之所以如此,因为无论机器学习的何种具体的算法,其统一基本假设为统计学范畴。
以监督学习为例,将输入与输出所有可能取值的集合分别称为输入空间与输出空间,将输入与输出看做是定义在输入(特征)空间与输出空间的“随机变量”的取值,用大写字母X.Y表示。监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y),P(X,Y)表示分布函数,或分布密度函数。机器学习(统计学习)假设数据存在一定的统计规律,X和Y具有联合概率分布的假设是监督学习关于数据的基本假设。
由于此基于统计学的基本假设,所以机器学习也可以称之为统计学习。
二.统计学习的三要素:
统计学习的三要素为:模型,策略,算法。
统计学习的核心为三要素,统计学习具体方法的不同,主要体现在模型,策略,算法的不同,但有其共同的思想核心。
1、模型:
监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。模型是由输入空间到输出空间的映射的集合,这个集合就是假设空间。
统计学习首先要考虑的就是学习什么样的模型,例如:假设决策函数是输入变量的线性函数,那么模型的假设空间就是所有这些线性函数构成的函数集合。(存疑:模型需要实现假设划定?怎么假设划定?)
2、策略:
策略是按照什么样的标准,如何才能在假设空间中选取最优的模型。
策略往往是以提高泛化能力为核心目标需求,通过“正则化”和“交叉检验”的方法来实现选取最优模型的目的。
3、算法:
算法就是学习模型的具体计算方法,即归结为最优化问题。
三、监督学习的分类
1.生成模型和判别模型;
2.分类模型和回归模型。