统计学习方法:
统计学习是概率论、统计论、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,其基本假设是同类数据具有一定的统计规律性,这是统计学习的前提,其在计算机科学中所处位置如下:
计算机科学由三维组成,即系统、计算和信息,统计学习属于信息这一维,向下又可以分为统计学习方法,统计学习理论和统计学习应用;统计学习方法由模型、策略和算法这三要素构成。
变量与空间
在机器学习模型中涉及的空间包括输入空间、特征空间、输出空间、参数空间。将输入所有可能取值的集合称为输入空间,将输出所有可能取值的集合称为输出空间,每一个输入实例由特征向量表示,所有特征向量所在空间是特征空间,有时假设输入空间与特征空间为相同空间,对他们不予区分(我本人到目前为止不区分这两个空间);有时假设输入空间与特征空间为不同空间,将实例从输入空间映射到特征空间,模型实际上都是定义在特征空间上的。
在监督学习过程中,将输入与输出定义在输入空间与输出空间上的随机变量(大写)的取值,即输入变量X,输出变量Y,变量的具体取值称为实例(小写),输入实例 x x x,输出实例 y y y,第i个实例 x i = ( x i ( 1 ) , x i ( 2 ) , x i ( 3 ) … x i ( n ) ) T x_{i}=(x_{i}^{(1)},x_{i}^{(2)},x_{i}^{(3)} \dots x_{i}^{(n)})^{T} xi=(xi(1),xi(2),xi(3)…xi(n))T,其中 x i ( 3 ) x_{i}^{(3)} xi(3)表示第 i i i个实例的第3个特征,其输出实例为 y i y_{i} yi,定义 ( x i , y i ) (x_{i},y_{i}) (xi,yi)为样本点,这样我们就可以表示数据集为 T = { ( x 1 , y 1 ) , ( x 1 , y 1 ) , ( x 1 , y 1 ) … ( x N , y N ) } T=\{(x_{1},y_{1}),(x_{1},y_{1}),(x_{1},y_{1}) \dots (x_{N},y_{N})\} T={
(x1,y1),(x1,y1),(x1,y1)…(xN,yN)},参数空间即参数向量 θ \theta θ的所有可能取值构成的空间。
机器学习算法分类
一般我们所说的机器学习,主要是指统计机器学习,机器学习算法可以分为监督学习、非监督学习、半监督学习和强化学习。监督学习简单理解为有类标签,非监督学习理解为没有类标签,《统计学习方法》以监督学习为主,同时监督学习的模型也是统计学习中内容最丰富、应用最广泛的部分,监督学习的基本假设是输入变量X与输出变量Y具有联合概率分布 P ( X , Y ) P(X,Y) P(X,Y),上面提到的数据集 T = { ( x 1 , y 1 ) , ( x 1 , y 1 ) , ( x 1 , y 1 ) … ( x N , y N ) } T=\{(x_{1},y_{1}),(x_{1},y_{1}),(x_{1},y_{1}) \dots (x_{N},y_{N})\} T={ (x1,y1),(x1,y1),(x1,y1)