机器学习——逻辑回归,岭回归与LASSO,模型评价指标学习笔记

逻辑回归 —— 用于解决分类问题

误差计算

​ 原来计算预测值,线性计算结果如果小于零,预测值为0;如果原来计算预测值为1,预测值就为1。结果只有0和1两种取值,但是这样如果样本错误分类,误差为1,如果样本正确分类,误差为0。这种误差计算方式太为武断,且无法反映误差大小。如下:
h ( x ) = { 0 θ T x < 0 1 θ T x > 0 h(x) = \begin{cases} 0 && \theta^Tx<0\\ 1 && \theta^Tx>0\\ \end{cases} h(x)={01θTx<0θTx>0
​ 因此将原本分类前的预测值用sigmoid函数散列到零和一之间的数,来表示它有多大的概率分类结果为0/1。代入sigmiod函数
g ( x ) = 1 1 + e − x 所 以 , h ( x ) = g ( θ T X ) g(x) =\frac{1}{1+e^{-x}}\\ 所以,h(x)=g(\theta^TX) g(x)=1+ex1h(x)=g(θTX)
在这里插入图片描述

将预测值散列到 0-1之间。计算代价函数就不会出现只有两个值的情况了,也更能反映估计值与真实值的偏差

训练误差

根据训练数据,训练出来一个训练模型。将训练数据带入模型中,得出训练数据的预测值。 该预测值与训练数据(真实值)的误差叫做训练误差。
在工程中,一般会将拿到的数据集做切分,百分之八十做训练数据,百分之二十做

预测误差

测试数据与真实值的误差,一般可以将预测误差当作泛化误差。

泛化误差

模型将来会用来去预测未知的样本,若用到未知的样本上,产生的误差叫做泛化误差。

代价函数

在这里插入图片描述

在c=1时,预测错误的代价可以直接用x,θ计算出来的sigmoid值来表示条件概率,即在给出预测值的条件下,c=1发生的概率
在c=0时,越接近0概率越小,但是我们希望当c=0时,预测错误的代价是大的,因此用1-h_θ(x)来表示

代价函数求对数的原因:

  • 连乘变为连加
  • 求对数后的单调性和函数本身一致

岭回归

岭回归的代价函数实际上就是对 θ的L(2)正则化

岭系数就是正则化参数,而岭回归就由于正则化(对每个参数增加了惩罚因子),而避免了过拟合问题

LASSO回归——稀疏化

​ 高维数据指数据的维度很高,甚至远大于样本量的个数。高维数据的明显的表现是:在空间中数据是非常稀疏的,与空间的维数相比样本量总是显得非常少。
​ 在分析高维数据过程中碰到最大的问题就是维数的膨胀,也就是通常所说的“维数灾难”问题。研究表明,随着维数的增长,分析所需的空间样本数会呈指数增长。
​ Lasso是另一种数据降维方法,该方法不仅适用于线性情况,也适用于非线性情况。Lasso是基于惩罚方法对样本数据进行变量选择,通过对原本的系数进行压缩,将原本很小的系数直接压缩至0,从而将这部分系数所对应的变量视为非显著性变量,将不显著的变量直接舍弃(系数变为0)。

LASSO回归之所以会带来稀疏化的效果,是因为他是L1正则化项,因此代价函数等值线更容易切到阴影部分的顶点,切到顶点就必然会有某些权重很小或几乎为0,这就是LASSO稀疏化得原因。

LASSO与岭回归

β = arg ⁡ m i n { ∑ i = 1 N ( y i − h ( x i ) ) 2 + λ ∑ j = 1 p β 2 } 等 价 于 β = arg ⁡ m i n { ∑ i = 1 N ( y i − h ( x i ) ) 2 } s . t . ∑ j = 1 p β j 2 ≤ t \beta = \arg min\{\sum_{i=1}^N(y_i-h(x_i))^2+\lambda\sum_{j=1}^p\beta^2\}\\ 等价于\\ \beta = \arg min\{\sum_{i=1}^N(y_i-h(x_i))^2\}\\ s.t.\sum_{j=1}^p\beta_j^2\le t β=argmin{i=1N(yih(xi))2+λj=1pβ2}β=argmin{i=1N(yih(xi))2}s.t.j=1pβj2t
岭回归:
多重线性回归要求各个自变量之间相互独立,不存在多重共线性。所谓多重共线性,是指自变量之间存在某种相关或者高度相关的关系,其中某个自变量可以被其他自变量组成的线性组合来解释。
医学研究中常见的生理资料,如收缩压和舒张压、总胆固醇和低密度脂蛋白胆固醇等,这些变量之间本身在人体中就存在一定的关联性。如果在构建多重线性回归模型时,把具有多重共线性的变量一同放在模型中进行拟合,就会出现方程估计的偏回归系数明显与常识不相符,甚至出现符号方向相反的情况,对模型的拟合带来严重的影响。


模型评价指标

  • 准确率:在所有识别的样本中,能正确分类(识别结果准确)的样本在总识别样本数中的占比
  • 正确率:在所有预测为正的样本中,结果确实为正的样本的占比
  • 召回率:在所有实际为正的样本中,被预测出来为正的样本的占比

ROC与AUC

在逻辑回归分类中,二维平面上,纵坐标表示真实类别,横坐标表示预测函数计算结果(因为预测结果是x被分为某类的概率值,因此图中为“ 概率 ”)。据此,可以给定一个阈值, 将预测函数计算出来的结果根据阈值进行二分类。

ROC

将混淆矩阵映射到二维空间中:横轴:FPR,纵轴:TPR。

在这里插入图片描述

绘制步骤:

在这里插入图片描述

理解:

可以将ROC的横轴理解为代价,纵轴理解为收获

AUC

AUC为ROC与横轴的面积

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
多元线性回归是一种用于预测房屋价格的常用方法。它基于多个自变量与因变量之间的线性关系建立回归模型。在Python中,可以使用sklearn库的LinearRegression类来实现多元线性回归。 岭回归是对多元线性回归的一种正则化方法。它通过引入一个正则化项,可以在模型训练过程中对自变量的系数进行约束,从而避免过拟合的问题。在Python中,可以使用sklearn库的Ridge类来实现岭回归Lasso回归也是对多元线性回归的一种正则化方法,与岭回归类似,但它使用的是L1正则化。Lasso回归不仅可以约束自变量的系数,还可以用于特征选择,将不重要的特征的系数推向零。在Python中,可以使用sklearn库的Lasso类来实现Lasso回归。 使用这些方法进行房屋价格预测的步骤大致相同。首先,将房屋的特征作为自变量,房屋价格作为因变量,构建多元回归模型。然后,根据数据集中的房屋特征和对应的价格,利用模型进行训练。最后,可以使用训练好的模型对新的房屋特征进行预测,得到对应的价格。 需要注意的是,为了得到准确的预测结果,应该对数据进行适当的预处理,例如特征缩放、数据清洗和特征选择等。此外,还应该通过交叉验证等方法,选择适当的模型超参数,以避免过拟合或欠拟合的问题。 总的来说,多元回归、岭回归lasso回归都是常用的预测房屋价格的方法,使用Python中的相应库可以方便地实现这些方法。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值