机器学习入门回归的数学理解

回归

一.主要内容

1.回归

样本(X,Y) X为特征向量,Y为标签。若Y是连续的则是回归问题(线性回归),若Y是离散的则是分类问题(logistic回归)。回归和分类也是机器学习中的两个大类别。

2.线性回归

高斯分布

最大似然估计

最小二乘法的本质

3.Logistic回归(二分类)

分类问题的首选算法

4.多分类(softmax回归)

目标函数

5.技术点

梯度下降算法

最大似然估计

特征选择

 

线性回归

核心

使用极大似然估计解释最小二乘

 

使用极大似然估计解释最小二乘实际问题中,很多随机现象可以看成众多因素的独立影响的综合反映,往往近似服从正太分布。注意前提是多个随机变量的和,许多问题是乘性误差,则需要鉴别或者取对数后在使用。

因为误差符合正太分布,则它的概率分布可得到为

 

可先了解最大似然估计,之后在去看线性回归,lasso和 ridge回归的区别。

因为线性回归容易过拟合,ridge回归是线性回归的目标函数后面加上了L2范式,引入超参数,作用是避免过大,造成结果抖动过大。Lasso是在线性回归的目标函数后面加上了L1范式,作用是稀疏矩阵,有特征选择的作用。

 

当lasso取最小值的时候,可以看到,某一维度为0,这就是lasso可以做特征选择的理解

 

 

梯度下降的算法和多分类的具体看其他博客,这篇只是从数学的角度帮助理解的。

 

TP(True Positive):实际正样本,预测为正样本
FP(False Positive):实际负样本,预测为正样本
TN(True Negative):实际负样本,预测为负样本
FN(False Negative):实际正样本,预测为负样本
如果觉得不好理解,请注意其英文翻译,应该更容易理解。那么下面介绍我们常用的几个指标。

一、精确率、召回率
1、精确率(precision)的定义为:P = TP / (TP + FP),是指正样本被预测正确的比例;

2、召回率(recall)定义为:R = TP / (TP + FN),是指预测为正样本的样本中,正确的比例;

3、P-R曲线:以 P 为 y 轴,以 R 为 x 轴,根据样本数变化得出不同的 P,R,绘制出来的曲线,如下图。在实际中,从精确率和召回率的定义可以理解,精确率越高,召回率越高,我们的模型和算法就越高效。也就是画出来的PR曲线越靠近右上越好。 

二、灵敏度、特异度、ROC曲线、AUC
1、灵敏度(True Positive Rate, TPR)的定义为:TPR = TP / (TP + FN),实际上与召回率的定义相同;

2、1-特异度(False Positive Rate, FPR)的定义为: FPR = FP / (FP + TN)

3、以 TPR 为 y 轴,以 FPR 为 x 轴,调整不同的阈值得到 TPR,FPR,就可以得到 ROC 曲线,如下图。从FPR和TPR的定义可以理解,TPR越高,FPR越小,我们的模型和算法就越高效。也就是画出来的RoC曲线越靠近左上越好。 


4、ROC 曲线下的面积称为 AUC(Area Under Curve),从几何的角度讲,RoC 曲线下方的面积越大越大,则模型越优。所以有时候我们用 ROC 曲线下的面积,即 AUC 值来作为算法和模型好坏的标准。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值