在学习有监督机器学习模型之前,我们需要使用一些约定的符号来对模型进行表示,这些符号主要如下:
-
输入变量(或输入特征): x ( i ) x^{(i)} x(i)
-
输出变量(或目标变量): y ( i ) y^{(i)} y(i)
-
特征变量(也叫属性或特征): [ x 1 ( i ) , x 2 ( i ) , . . . , x j ( i ) , . . . , x n ( i ) ] [x_{1}^{(i)},x_{2}^{(i)},...,x_{j}^{(i)},...,x_{n}^{(i)}] [x1(i),x2(i),...,xj(i),...,xn(i)],其中 x j ( i ) x_{j}^{(i)} xj(i)称为第j个特征变量
-
第i条训练样本: ( x ( i ) , y ( i ) ) (x^{(i)},y^{(i)}) (x(i),y(i))
-
训练集(m条样本的集合): ( x ( i ) , y ( i ) ) ( i = 1 , 2 , . . . , m ) (x^{(i)},y^{(i)}) (i=1,2,...,m) (x(i),y(i))(i=1,2,...,m)
-
输入、输出值的空间: X , Y = R X,Y={R} X,Y=R, X , Y X,Y X,Y都是n维实数空间
-
假设函数: h θ ( x ) h_{\theta}(x) hθ(x),例如 h θ ( x ) = θ 0 + θ 1 x h_{\theta}(x)={\theta}_{0}+{\theta}_{1}x hθ(x)=θ0+θ1x
有监督学习的目标是,给定一个训练集,学习一个函数: h : x → y h: x{\rightarrow}y h:x→y,使得 h θ ( x ) h_{\theta}(x) hθ(x)能很好的预测相应的y值,其过程如下所示:
-
当目标变量为离散型(标称型)数据时,我们称这样的学习问题为分类问题;
-
当目标变量为连续型(数值型)数据时,这样的问题惩治为回归问题,比如根据房子的尺寸预测房子的的价格