线性回归

线性回归

回归得到的是一个区间值,如银行根据年龄和工资预测出贷款的额度 

逻辑回归模型最终拟合出一条直线

线性回归是找拟合平面
拟合平面由特征和对应参数组成,我们要做的是确定出参数
然后把新数据带入到拟合面对应的函数(说明新数据求出的值一定在拟合平面上),再加上误差就得到预测值

 

横轴特征加上小范围的浮动,有利于拟合出逻辑回归的模型

如果是一条直线,就不知道在纵轴的某个值分布的有多少个点了(不容易观察出),如果把参数jitter设置为0.5(左右小范围浮动)或者True,就能很好的解决问题
这个题目的背景是什么?

 

分类问题得到的是一个类别,如银行根据年龄和工资预测出到底借不借的问题(借和不借可用0、1代替)

 

例子:银行根据年龄和工资确定出贷款金额

年龄的参数θ1,表示年龄对结果有多大的影响;工资参数θ2,表示工资对最终结果有多大的影响;θ0偏置项,贷款有个浮动值

权重参数(θ1,θ2):影响大,偏置参数(θ0,b):影响小

问题:权重参数怎么求的?这也是面试平安科技时问到的一个问题,你的权重参数是怎么确定出来的

通过似然函数求出的(具体见下)

这里是没有特征X0的,但是整合后出现了X0,可以在原始数据中加入一列值全为1的特征X0

红色点是实际数据,与拟合出来的平面(根据原始数据拟合出来)存在差异,这个差异用ε表示

ε为红点到拟合平面的距离

视频中讲到:新来的数据同样有标签的(即贷款金额),这个值和拟合平面(预测值)比较存在误差ε

误差(相当相当重要):误差项假设服从高斯分布

每一条数据都存在一个误差ε

高斯分布(那个图对应函数表达式),纵轴交点为0.4

高斯分布就是正态分布(正常状态下的分布),分为标准和不标准两种

标准的高斯分布:均值为0,标准差为1;不标准很多情况

实际情况

注意高斯分布表达式

似然函数:通俗理解:去赌场赌博,不知道是赢还是输,只知道输赢是服从赌场的某个规则,于是在门口问出来的第一个,第二个...问了10个人发现有个人挣钱了,一个人输钱了,现在就认为无论赌场服从什么规则,只要我进去就有0.9的概率挣钱

根据样本数据(已赌人的情况)估计参数值(赌场规则)

最大似然函数:根据函数推导出最合适的参数θ,使预测值和真实值最大程度的接近

实质含义:预测值成为真实值的可能性,当然函数值越大越好

LR中必问三个点:

逻辑回归中的目标函数表达式是什么?平安科技面试时让写LR的目标函数,同样的,也可能问到SVM

为什么要引入似然函数?

为什么要取对数

最小二乘法/目标函数(一个函数表达式,同样也是LR中的目标函数)是什么?为什么越小越好?面试平安科技时面试官要我写出LR的函数表达式

似然函数做乘法运算,要是有m很大(即特征很多时),需要很多次累乘,这是不容易去实现的,因此把乘法转化为加法(即取对数运算)

 

接下来的问题当然是求目标函数的最小值

平方项转化为转置矩阵乘原矩阵,消除矩阵的方法是左右乘你矩阵(没有什么除法运算的)

让目标函数的偏导为0,能使目标函数的值最小,因此需要进行偏导运算

X表示银行贷款用户的特征信息(年龄,工资,实际数据),y表示银行能借的金额(实际数据),θ对应的拟合平面为预测值

 

上左表示真实值

上右yi表示预测值

类似方差项:方差项还需要除m

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值