一、概念解释
1.1线性(linear):
形为 ax+by+...+cz+d=0 ,关于x、y的线性方程,是指经过整理后能变形为
ax+by+c=0的方程(其中a、b、c为已知数,a、b不同时为0)。一元线性方程是最简单的方程,其形式为ax=b。因为把一次方程在坐标系中表示出来的图形是一条直线,故称其为线性方程。
1.2回归(Regression):
分为三种解释:
1.2.1“气温正在回归正常”
中文字面意思上的理解,这里的含义是让数据回归到期待值。
1.2.2“身高回归”
就是所有人的平均身高。也就是随着一代一代的繁衍,孩子的平均身高会回归到所有人的平均身高的水平。
1.2.3“图像数据回归”
最靠谱的解释,合理的揭示了回归的含义——用观察使得认知接近真值的过程,回归本源,即分析自变量与因变量之间的关系。
1.2.4 补充
常见的统计问题分为分类问题与回归问题
二、案例
2.1 问题剖析:
根据工资和年龄求额度:
2.2 各参数含义:
数据:工资和年龄,上面公式的
目标:贷款额度,上面公式的
参数:可以理解为权重,上面公式的和
三、误差
3.1 引入
目标:找一个平面让尽可能多的数据落在平面上(因为线性问题无法连接所有的点)
拟合的平面为: 其中,
为偏置项,
,
权重项
整合:
3.2 误差项定义
上述的公式中,为真实值,
为预测值,
为误差
3.3 数学概念引入——独立同分布
独立:数据样本之间无联系,数据1的出现不会影响数2,如果班级成员按照成绩排名,就会相互影
响,即不独立。
同分布:数据尽来自于一个分布。
误差的高斯分布:理解为在均值附近时,误差较小,发生的概率较大;
远离均值时,误差较大,发生的概率较小。
上面的第三个式子意为求一个,使得
与
组合完接近于
,概率越大越好
3.4 似然函数与对数似然![](https://i-blog.csdnimg.cn/direct/345e72a3515b46338f634d5a6b7b9e62.png)
似然函数:每组数据准确度相乘(独立同分布,P(AB)=P(A)P(B))。
对数似然:若有1000项相乘+计算量太大,因此引入对数似然,将乘法问题转变为加法问题。
将其化简,以e为底,得到的形式,x越小越好。
3.5 最小二乘法
解释:
公式1的解释:平方等于矩阵的转置乘以本身,同时平方项内调换位置不影响正负。
公式2的解释:线性代数中;
若A为对称阵,对求微分为
;
剩下的矩阵求导参考3.7节
3.6 数学概念引入——矩阵求导
无论是矩阵、向量对标量求导,或者是标量对矩阵、向量求导,其结论都是一样的:等价于对矩阵(向量)的每个分量求导,并且保持维数不变。
3.6.1 标量求导
3.6.2 向量求导
3.6.3 矩阵求导
与向量求导类似,先将矩阵化当做一个标量,再使用标量对矩阵的运算进行。例如,我们可以计算矩阵对列向量求导:
3.6.4 实值函数相对于实向量的梯度
3.6.5 常见性质
3.7 梯度下降
3.7.1 引入
目标:让loss function下降,举个例子为,从山顶走到山脚
采取措施:可以有很多不同的路,但对于当前来说,沿着该点的切线下山速度最快,即梯度下降。
具体步骤:1.先沿着梯度下降方向走
2.走一步(步子大小不确定,即学习率,一口吃不成个胖子,通常较小,不容易跑偏)
3.按照方向与步伐更新我们的参数
与
的关系:参照上图,
与
是相互独立的两个维度,因此参数计算是同时进行的,且两个参
数共同决定梯度下降的最快方向。(可以理解为控制x轴方向上的最快下降方
向,控制着y轴方向上的最快下降方向,两者的向量和决定了二维空间中的最快
梯度下降方向)
3.7.2 三种梯度下降的方式
公式1的备注:多除个m是为了求平均,满足多的点
公式(1)-->(2)的备注:,而
不含
,理解为常数
公式2的备注:梯度的反方向才叫梯度下降,因为加上梯度的相反数。
即为更新后的参数
三种方式对比:
批量梯度下降(公式2):可以得到所有参数的最优解,但是计算量太大
随机梯度下降(公式3):不求和,不一定朝好的方向,不可控
小批量梯度下降(公式4):拿出一部分(min batch,常取2的几次幂)
取的越大,越精确;取的越小,越粗糙
参考视频:机器学习入门到精通!不愧是公认的讲的最好的【机器学习全套教程】同济大佬12小时带你从入门到进阶(机器学习/线性代数/人工智能/Python)_哔哩哔哩_bilibili
参考文章:
统计学习的“回归”——各种回归(Regression)都是什么意思?(转)_incremental regression 统计-CSDN博客