关于机器学习系统:通过学习如何组合输入西悉尼,来对未见过的数据做出有用的预测。
下面来学习一些常用术语。以一个简单的线性回归为例。由于概念比较多,所以大部分是慕课上PPT的截图,以备后续复习使用。
监督式机器学习
1、标签和特征
标签:是我们要预测的真实事物
线性回归中的y变量
特征:是指用于描述数据的输入变量
线性回归中的{x1, x2, x3,…,xn}变量
2、样本和模型
样本是指数据的特定实例:x
- 有标签样本具有{特征,标签}:{x,y}
用于训练模型 - 无标签样本具有{特征,?}:{x,?}
用于对新数据做出预测
模型可将样本映射到预测标签:y’
由模型的内部参数定义,这些内部参数值是通过学习得到的。
3、训练
(1)训练模型表示通过有标签样本来学习(确定)所有权重和偏差的理想值
(2)在监督式学习中,机器学习算法通过以下方式构建模型:检查多个样本并尝试找出可最大限度地减少损失的模型。
这一过程称为经验风险最小化。
4、损失
损失是对糟糕预测的惩罚:损失是一个数值,表示对于单个样本而言模型,也是预测的准确程度,如果模型的预测完全准确,则损失为零,否则损失会较大。训练模型的目标是从所有样本中找到一组**平均损失“较小”**的权重和偏差。
模型训练与降低损失
1、模型训练要点
2、收敛
3、计算损失例子
梯度下降法
学习率