【人工智能全栈学习】机器学习基础知识——线性回归与逻辑回归(看完就全懂了)
本系列文章不可转载!!!
一、问题
| 本章问题导读,如果面试前以下题目还有不会的建议看本篇文章 |
|---|
| 1.什么是MSE |
| 2.逻辑回归和线性回归的不同,请说出一个典型的逻辑回归表达式(如sigmod) |
| 3.KL距离的本质 |
| 4.请介绍准确率和召回率 |
| 5.介绍ROC曲线和AUC,说出ROC存在的意义,AUC=1和AUC=0代表什么 |
| 6.什么是正则项,比较L1正则和L2正则的区别 |
| 7.使用逻辑回归的时候测试集需满足正态分布和正负样本相等,这是为什么 |
| 8. 为什么逻辑回归不用mse,用KL距离 |
| 9.为什么线性回归可以用mse |
二、人工智能全栈学习系列课程
【人工智能全栈学习】机器学习基础知识——线性回归与逻辑回归(看完就全懂了)
【人工智能全栈学习】机器学习基础知识——传统机器学习(看完就全懂了)
【人工智能全栈学习】机器学习基础知识——分类器和机器学习三大定律(看完就全懂了)
【人工智能全栈学习-情感分析】BiLSTM(看完就全懂了)
【人工智能全栈学习-情感分析】Bert(看完就全懂了)
【人工智能全栈学习-知识图谱】零基础实践——动手学关系抽取
【人工智能全栈学习-知识图谱】零基础理论——动手学关系抽取:TextCNN&LSTM
【人工智能全栈学习-计算机视觉】Yolo系列(看完就全懂了)
【人工智能全栈学习-图像分割】语义分割和实例分割(看完就全懂了)
三、线性回归
mse:Mean squared error

四、逻辑回归(logistic regression)
【推荐阅读】逻辑回归(logistics regression)原理-让你彻底读懂逻辑回归







KL距离:散度
初学机器学习:直观解读KL散度的数学概念



乘在左侧的加权是为了使这个值为期望值
这里理解了好久,有点类似于概率论里的E(x)=p(x)*f(x)
损失函数:既要考虑训练效果好又要考虑训练集和测试集的差异小
上采样和下采样
数据预处理-上采样(过采样)与下采样(欠采样)
上采样与下采样
模型评测
准确率和召回率
和阈值相关,比如认为高于0.5是True,所以准确率和召回率是和阈值相关的,阈值越高筛除了很多不好的样本,准确率越高,但是召回率就越低。 阈值选择基于产品形态。
T:True
F:Fasle
P:Positive
N:Negative
| True | False | |
|---|---|---|
| P(y=1) | TP | FN |
| N(y=0) | TN | FN |
1.准确率:
T
P
T
P
+
F
P
\frac{TP}{TP+FP}
TP+FPTP
预测中的正确率
2.召回率:
T
P
T
P
+
F
N
\frac{TP}{TP+FN}
TP+FNTP
实际中的正确率
ROC和AUC(一般在0.7~0.85)
真实
正样本:M 负样本:N
预测为正
正样本里m被预测为正,负样本里有n被预测为正的
ROC曲线
AUC面积的意义:
m:
正
样
本
>
θ
1
正样本>\theta_1
正样本>θ1
n:
θ
2
>
负
样
本
>
θ
1
\theta_2>负样本>\theta_1
θ2>负样本>θ1
横坐标:反例中预测为正例的
纵坐标:正例中预测为正例的

A
U
C
=
A
U
C
表
示
的
是
正
例
排
在
负
例
前
面
的
概
率
AUC=AUC表示的是正例排在负例前面的概率
AUC=AUC表示的是正例排在负例前面的概率
AUC值高代表模型更好,完美的分类器AUC为1,最低为0
模型评估指标AUC(area under the curve)








正则优化:正则项
这篇文章较难理解,可以不看:正则项浅析


这篇文章较好理解:什么是 L1/L2 正则化 (Regularization)



我的理解是我们需要衡量训练模型的好坏,但如上所说,并不是loss越少越好,这么看,我们的评价公式是有问题的,这个时候在原本的loss公式上加上了“正则项”。达到如下目的:

这样为了让新的loss尽可能小

这里看到评论区有人问了为什么切点处和最小,我的理解是黄圈把loss从中心往外拉了,拉到了某个椭圆上。这个时候的白点符合黄圈也同时符合蓝圈,显然是切点最好。

加上了强度
λ
\lambda
λ

必问:
用L1时牺牲最不重要的维度
用L2时各维度普遍变小
标准化


数值优化
贝叶斯公式
条件概率:后验概率
| 概念 | 数据的关系 |
|---|---|
| 概率,是你已经知道模型,去分析数据。 | 概率对象:真实对模拟 |
| 似然度,是你只知道数据,去模拟一个模型,分析模拟模型和数据(真实模型)的相似度。简单来说,似然度就是相似度,两个变量之间的相似度。 | 似然度:模拟对真实 |

扩展
mse推导
以身高为例,假设中国男性身高,假设y为性别y=1是男,y=0是女,x为身高,男性平均身高
μ
1
\mu_1
μ1,女性平均身高
μ
2
\mu_2
μ2。


将两个相除,把
P
(
x
)
P(x)
P(x)消去,得到公式一:

又知道公式二:

令右侧以
e
e
e为底的式子为
A
A
A,将公式一和公式二联立,可以得到如下公式三:

得到:

即得到以下的式子:

得到逻辑回归的表达式:

分析:因为我们只有公式一,公式二,所以无法求出
μ
1
\mu_1
μ1和
μ
2
\mu_2
μ2和
σ
\sigma
σ,两个公式无法得到三个未知数。但是可以知道两者之间的差异,所以称之为判别模型——知道分布需要很多参数,但是却能进行分类
注:刚刚漏掉了男女比例的a


因此最后是有a的,但一般做逻辑回归的时候认为p(y=0)=p(y=1),即a=1

用逻辑回归的时候要承认两个事实:
1.满足正态分布
2.两类数量相等(所以要上下采样,让正负样本数量尽可能相等)
推荐阅读:
【理解机器学习(二)】样本不平衡问题:为什么逻辑回归的阈值设为0.5?

一定要让预测概率大于随机猜的概率


KL距离
为什么逻辑回归不用mse,用KL距离
导数有问题,w是随机的,假如刚开始是非常大的正值

w非常大的话

f
i
f_i
fi趋于1或者0,当
f
i
f_i
fi趋于1或者0时
f
i
∗
(
1
−
f
i
)
f_i*(1-f_i)
fi∗(1−fi)就会特别小,会导致导数非常小

此时还没有正确分类,学不到东西。
为什么线性回归可以用mse呢
因为逻辑回归中多了一个sigmoid函数,线性回归中没有,不会出现这种问题
最大似然估计
我们不知道原因(即w),但我们知道原因产生的结果(即
x
1
、
x
2
、
x
3
.
.
.
x_1、x_2、x_3...
x1、x2、x3...)

可以尝试找到能找到一个w可以让这个结果
x
1
、
x
2
、
x
3
.
.
.
x_1、x_2、x_3...
x1、x2、x3...发生概率最大化,即从结果找到最本质的原因。
(
x
1
,
y
1
、
(
x
2
,
y
2
)
、
(
x
3
,
y
3
)
.
.
.
(x_1,y_1、(x_2,y_2)、(x_3,y_3)...
(x1,y1、(x2,y2)、(x3,y3)...已经发生,发生的概率是
P
1
∗
P
2
∗
P
3
∗
.
.
.
P_1*P_2*P_3*...
P1∗P2∗P3∗...,即求
m
a
x
(
P
1
∗
P
2
∗
P
3
∗
.
.
.
)
max(P_1*P_2*P_3*...)
max(P1∗P2∗P3∗...)


把公式合在一起得到
P
(
y
∣
x
)
=
f
y
(
1
−
f
)
1
−
y
P(y|x)=f^y(1-f)^{1-y}
P(y∣x)=fy(1−f)1−y
当y=0时,原式变为1-f
当y=1时,原式为f


拆开来写就是

即最大化的正值,如果取个负号,就是最小的负值:

&spm=1001.2101.3001.5002&articleId=122048329&d=1&t=3&u=de944ca589b649ac9835fd2f5c20d66e)
746

被折叠的 条评论
为什么被折叠?



