机器学习中,首先遇到的概念就是模型(Model),模型有一个入口一个出口,x
(i) 表示输入变量或者输入特征,y
(i) 表示输出或想要预测的目标变量,一组
(x(i), y(i)) 被成为一个训练样本(training example),所有被使用的用于训练模型的数据集(x(i), y(i)) (i=1,2,3,..., m)被称为一个训练集或训练样本集(training set),其中,i只是表示一个个训练样本的索引,并不是变量的幂次方求解。同时,我们使用大写 X 代表输入值空间, 大写 Y 代表输入值空间,也就是X=Y=R。
从而,可以对监督学习进行稍微正式一些的描述,目标:给定一个训练集,通过这个训练集获得一个函数h (X->Y) 因此 h(x) 就是为了预测输出 y 的一个预测器(也就是一个模型),其中,h 代表hypothesis 上述处理过程可以表示成一下形式:
当输出的 y 是连续值的时候,例如,房价的预测,就称为回归问题,而当输出的 y 值是确定的几个离散值的时候,例如房价是跌还是降,就称为分类问题。
欢迎大家关注:数据之下 微信公众号,系统性的分享机器学习、深度学习等方面的知识,不做碎片化学习的牺牲者,要做利用好碎片化时间的受益者。