1.1 统计学习
1.1.1 统计学习的特点:
统计学习是计算机基于数据构建概率统计模型并运用模型对数据进行预测分析。也叫统计学习。
主要特点,计算机和网络为平台,数据为研究对象,摸底是对数据预测和分析,统计学习一方为中心,统计学习方法构建模型并应用模型进行预测与分析,交叉学科
统计学习的对象
统计学习对象是数据,数据是多样的,数字文字图像视频、音频和他们组合
统计学习方法:
方法是基于数据构建统计模型从而对数据进行预测与分析。统计组成有:
监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)和强化学习(reinforcement learning )
1.2 监督学习
模型能对任意的输入对应其相应的输出做一个好的预测,与一般计算机区别的区别是,计算机的基本操作是给定一个输入产生一个输出,监督学习是给定一个输入给出一个对应输入的预测(相对好的)
1.2.1基本概念
输入空间(input space):输入的所有可能取值的集合
输出空间(output spce):输出的所有可能取值的集合
输入输出空间可以是有限元素的集合,也可以是整个欧式空间,输入控件与输出控件可以是一个控件,也可以是不同的控件,通常输出空间远远小于输入空间
(这里体现出导师加的数学课还是基础课啊,ps:微分几何、拓扑学)
欧式空间:设V是实数域R上的线性空间(或称为向量空间),若V上定义着正定对称双线性型g(g称为内积),则V称为(对于g的)内积空间或欧几里德空间(有时仅当V是有限维时,才称为欧几里德空间),具体来说,g是V上的二元实值函数,满足如下关系:
(1)g(x,y)=g(y,x);
(2)g(x+y,z)=g(x,z)+g(y,z);
(3)g(kx,y)=kg(x,y);
(4)g(x,x)>=0,而且g(x,x)=0当且仅当x=0时成立。
这里x,y,z是V中任意向量,k是任意实数。
(说人话:空间就是集合;不同的空间装不同类型的点,一个点进入它对应的空间;一个空间为集合中的点定义操作,这个空间中的点可以进行该空间赋予它的操作;空间定义的操作可以完成点与点对话的基本需求,如距离、角度、长度等)
线性结构,仅有向量的加法、数乘等;
距离+线性结构,形成一个线性空间,这个线性空间就是向量空间;
向量空间+范数(范数表示某点到空间零点的距离)。
范数的集合——>赋范空间+线性结构——>线性赋范空间 ;
距离的集合——>度量空间+线性结构——>线性度量空间;
线性赋范空间+内积运算——>内积空间;
这时的内积空间已经有了距离、长度、角度等,有限维的内积空间也就是我们熟悉的欧氏空间。
继续在内积空间上扩展,使得内积空间满足完备性,形成希尔伯特空间如下:
内积空间+完备性——>希尔伯特空间 ,其中完备性的意思就是空间中的极限运算不能跑出该空间。
赋范空间+完备性——>巴拿赫空间;
对距离进行弱化,保留距离的极限和连续概念,就形成拓扑的概念;
拓扑:距离、范数、开集。
(ps:这段通俗易懂的空间概念转自:https://www.jianshu.com/p/f09cc53946e5)
特征空间(feature space):每个具体的输入是一个实例(instance),通常有特征向量(feature vector)表示,所有特征向量存在的空间成为特征空间。
(特征空间每一维对应一个特征,有事假设输入与特征是相同空间,这时不区分,有时假设不同需要将实例从输入空间映射到特征空间,模型都是定义在特征空间的)
表示方法:
输入输出变量用大写字母表示,习惯上输入X输出Y,输入输出的值用消息字母x、y