一、线性回归
线性回归符号约定
m 代表训练集中样本的数量
n 代表特征数量
x 代表特征/输入变量
y 代表目标变量/输出变量
(x,y) 代表训练集中的样本
代表第i个观察样本
h 代表学习算法的解决方案或函数也称为假设
损失函数:度量单样本预测的错误程度,损失函数值越小,模型就越好。常用的损失函数包括:0-1损失函数、平方损失函数、绝对损失函数、对数损失函数等
代价函数:度量全部样本集的平均误差。常用的代价函数包括均方误差、均方根误差、平均绝对误差
目标函数:代价函数和正则化函数,最终要优化的函数
最小二乘法
二、梯度下降
三种形式:
批量梯度下降:梯度下降的每一步都用到了所有的训练样本
随机梯度下降:梯度下降的每一步中,用到一个样本,在每一次计算之后便更新参数,而不需要首先将所有的训练集求和
小批量梯度下降:梯度下降的每一步中,用到一定批量训练样本
数据的归一化/标准化
三、正则化[防止过拟合]
过拟合处理:
1、获得更多数据 最有效手段
2、 降维:丢弃不能帮助正确预测的特征
3、 正则化:保留所有特征,减少参数的大小
4、集成学习 :把多个模型集成在一起
欠拟合处理
1、添加新特征
2、增加模型复杂度
回归的评价指标: