我们首先讨论的是监督学习。
监督学习给出了样本,这节课我们分析一下样本和特征的关系。
1.特征
特征是需要被量化的,比如颜色,价格,而不是某种东西的“好看程度”,这不是特征。
很多个特征组成了某个物体,比如物体A
即A:{x1,x2,x3…….Xn}
2.样本
样本分为有标签样本和无标签样本,区别在于,无标签样本没有标签,但有特征。
有标签样本是监督学习的主力军。
3.模型
所以,样本包含了特征x,和标签y,最后我们需要用无标签样本(with x),去预测y。
而模型,就是用来联系x,y 的一个函数。
4.特征与标签
判断一个电子邮件是否是垃圾邮件,对于邮件的标题,是一个优质特征,而不是一个优质标签。
5.回归与分类
回归模型可预测连续值。
例如:
加利福尼亚州一栋房产的价值是多少?
分类模型可预测离散值。
例如
某个指定电子邮件是垃圾邮件还是非垃圾邮件?
这是一张狗、猫还是仓鼠图片?
6.梯度下降法