2020-10-21

Svm
最大间隔超平面:
从二维空间扩展到多维空间时,就是找一个完全将d1和d2完全分开的超平面。
为了使得这个超平面具有更强的鲁棒性,我们会去找最佳超平面,以最大间隔把两类样本分开的超平面。

两类样本分别分割在该超平面的两侧;
两侧距离超平面最近的样本点到超平面的距离被最大化了。

SVM 最优化问题
SVM 想要的就是找到各类样本点到超平面的距离最远,也就是找到最大间隔超平面。任意超平面可以用下面这个线性方程来描述:

如图所示,根据支持向量的定义我们知道,支持向量到超平面的距离为 d,其他点到超平面的距离大于 d。

在实际应用中,完全线性可分的样本是很少的,如果遇到了不能够完全线性可分的样本,于是我们就有了软间隔,相比于硬间隔的苛刻条件,我们允许个别样本点出现在间隔带里面。

我们可能会碰到的一种情况是样本点不是线性可分
将二维线性不可分样本映射到高维空间中,让样本点在高维空间线性可分

核函数的作用:

核函数的选择:
1.如果Feature的数量很大,跟样本数量差不多,这时候选用LR或者是Linear Kernel的SVM
2. 如果Feature的数量比较小,样本数量一般,不算大也不算小,选用SVM+Gaussian Kernel
3. 如果Feature的数量比较小,而样本数量很多,需要手工添加一些feature变成第一种情况

LR:

交叉熵损失为什么有log项
其中最重要的一点就是为什么取-log函数为损失函数,损失函数的本质就是,如果我们预测对了,能够不惩罚,如果预测错误,会导致损失函数变得很大,也就是惩罚较大,而-log函数在【0,1】之间正好符合这一点,另外还有一点需要说明,LR是一种广义的线性回归模型,平方损失函数的话,对于Sigmoid函数求导计算,无法保证是凸函数,在优化的过程中,求得的解有可能是局部最小,不是全局的最优值。其二:取完对数之后,对我们的后续求导比较方便。
如果根据似然函数,直接计算,有两点缺点:(1)不利于后续的求导,(2)似然函数的计算会导致下溢出。

1:LR解释一下
答:逻辑回归是一个分类模型,他将一个线性映射到一个0-1之间的非线性空间中,主要用于二分类,Logistic Regression 因其简单、可并行化、可解释强深受工业界喜爱.

2:LR的并行
在计算梯度的过程中,分为两种并行一个是样本的并行,还有一个是特征的并行,将一个矩阵按照行和列进行,拆分然后分别计算各个部分的一个梯度,和优化的参数值,然后进行相加。

4:LR优缺点?
优点:简单,速度快,适合高维稀疏数据
缺点:非线性的场景下不适用,很难处理数据不平衡问题。
5:为什么我们还是会在训练的时候将高度相关的特征去掉?
去掉高度相关的特征会让模型的可解释性更好而且可以大大提高训练的速度。信息冗余会造成特诊过多,影响模型收敛。
6:为什么LR特征离散化?
模型稳健:减少异常值影响
增强模型表达能力
稀疏向量内积计算快,离散化后收敛更快
方便做特征交叉
4:lr为什么用sigmod函数
答:因为LR模型假设的数据分布为伯努利分布,伯努利分布的属于指数分布族,这就可以推导出sigmod函数。
4:LR与SVM的区别
相同点: 1:都是分类算法,
2:有监督
3:判别模型
不同点: 1:损失函数不同,lr是交叉熵损失SVM 的损失函数是 HingeLoss
LR的目标是最小化模型分布和经验分布之间的交叉熵
SVM基于几何间隔最大化原理,认为几何间隔最大的分类面为最优分类面 
2: Lr用到了全部数据,而SVM只考虑分界面附近的少数点
3:LR 是参数模型,SVM 是非参数模型,所以lr受数据分布的影响,尤其是样本不均衡时,而svm不直接依赖分布。
4:LR 相对来说模型更简单好理解,特别是大规模线性分类时并行计算比较方便。
5.SVM计算复杂,但效果比LR好,适合小数据集;LR计算简单,适合大数据集,可以在线训练。
6.SVM不能产生概率,LR可以产生概率。
LR与SVM的相同点:
1、都是有监督的分类算法;
2、如果不考虑核函数,LR和SVM都是线性分类算法。
它们的分类决策面都是线性的。
3、LR和SVM都是判别式模型。
LR为什么要对连续数值特征进行离散化?
1、离散特征的增加和减少都很容易,易于模型的快速迭代;
2、稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;
3、离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大的干扰;
4、逻辑回归属于广义线性模型,表达能力受限;单变量离散化为N个后,每个变量有单独的权重,相当于为模型引入了非线性,能够提升模型表达能力,加大拟合;
5、离散化后可以进行特征交叉,由M+N个变量变为M*N个变量,进一步引入非线性,提升表达能力;
6、特征离散化后,模型会更稳定,比如如果对用户年龄离散化,20-30作为一个区间,不会因为一个用户年龄长了一岁就变成一个完全不同的人。当然处于区间相邻处的样本会刚好相反,所以怎么划分区间是门学问;
7、特征离散化以后,起到了简化了逻辑回归模型的作用,降低了模型过拟合的风险。

当模型估计值和真实值间的残差项服从均值是0的高斯分布时,就有最小二乘估计和最大似然估计等价

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值