什么是回归?回归问题中涉及到哪些概念?
回归:是研究一组随机变量y(因变量)和另一组随机变量x(自变量)之间关系的统计分析方法。
回归误差:y真实 = y预测 + ε误差
误差的高斯分布:未说明情况下,一般认为案例所给的有限样本中,对于每个样本的 真实标记值y 与 其根据回归函数所得的预测值 之间的误差: e(i) 是服从均值0,方差δ^2的高斯分布(正态分布)
似然函数 & 对数似然法
似然函数:样本标记y,样本数据x,未知的回归参数w。构造函数 L(w) ,要求对于整个样本集的每个数据x,使得标记集y 出现的概率最大,可以令 L(w) =【所有x可能的取值为条件时,对应得标记y出现的概率】的连乘, 求当L函数取得最大值时w为何值
对数似然法: 即似然函数等式左右取自然对数,由于ln()不会改变原函数的单调性,而对于以求极值为条件的问题,可以将原函数转化为原函数的对数函数,以简化运算
最小二乘法:通过最小化“误差的平方和”来寻找数据的最佳拟合函数。(在给定回归函数的情况下,使得x观测值集的对应的y预测值集与y真实值集直接误差的平方和最小)
正则化: 当求参数w时可以求得多组解的情况下,可通过算法的归纳偏好决定取哪组解,此时可引入正则化项。
广义线性模型:
原回归模型为 y = wx + b,若单独对因变量 y 添加一个【联系函数】的映射关系g(.)【单调可微函数】,也可进行模型学习。例如构建 【对数线性回归】模型 lny = wx + b
梯度下降 & 梯度上升:
在学习算法过程中,往往通过构建xx似然函数J(θ)或其转化函数JT(θ),求其最值的问题,一般的,
求最大值时,用梯度上升法
求最小值时,用梯度下降法
参数更新:
(1)找到当前最合适的方向 =》偏导数值
(2)朝着这个方向走一小步 =》学习率控制步长
(3)按照方向和步长更新参数
凸优化理论:</