线性回归
线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w’x+e,e为误差服从均值为0的正态分布。
定量输出成为回归,或者说是连续变量预测,如预测明天温度是多少度,这就是属于回归任务。
定性输出成为分类,或者说是离散变量预测,如预测明天是晴天、阴天还是雨天,这就属于分类任务。
回归是基于已有的数据对新数据进行预测。
以去银行贷款为例,若以工作和年龄作为数据,目标是预测银行会给我多少贷款,工资和年龄均会影响到最终的贷款额度,它们各自有多大的影响?
所以针对上述的例子,对于线性回归,通俗的解释是X1和X2就是我们的两个特征(年龄、工资),Y是银行会最终贷给我多少钱,找到最适合的一条线来最好拟合我们的数据点,如下图所示:
此时,数学来了:
假设θ1是年龄的参数,θ2是工资的参数,那么拟合的平面:
对上述公式进行整合:
在实际中,贷款的最终额度和预测额度会有一定的误差,用ε来表示该误差,故对于每个样本都有:
对于误差而言,误差ε(i)是独立并且具有相同的分布,并且服从均值为0、方差为θ^2的高斯分布,如下图所示:
独立:张三和李四一起来贷款,他俩没关系
同分布:他俩都来得是我们假定的这家银行
高斯分布:银行可能会多给,也可能会少给,但是绝大多数情况下这个浮动不会太大,极小情况下浮动会比较大,符合正常情况。
故与测试和误差为:
由于误差服从高斯分布:
将二者合并之后可得:
对于误差,我们又引入的似然函数:
解释:什么样的参数跟我们的数据组合后恰好是真实值
对于上述函数,计算比较繁琐,故引入对数似然,将乘法转成加法:
上述公式进行展开化简,可得:
而此时,为了使得真实值和预测值越相近越好,这就需要似然函数(对数变换后也一样)越大越好,这就需要对上述公式进行分析,前者是常量,而后者是一个大于0的数,这就需要后者越小越好,这就引入了J(θ)函数:
为了让J(θ)越小越好,可以对其求一阶导数,然后使其为0,便可以求出实际的θ,也就是当θ为何参数的时候,我们可以得到具体的贷款额度,具体公式推导如下:
线性回归算法——《深入浅出深度学习:原理剖析与python实践》
最新推荐文章于 2024-04-27 16:59:54 发布