LR与SVM

LR

最大化似然函数:L(w) = -\sum_{i=1}^{N}\sigma(w^Tx_i + b)^{y_i}(1 - \sigma(w^tx_i + b))^{1-y_i}

决策边界:y = I[w^Tx + b \geq 0]

核函数:log(1 + exp(-\sum_{i=1}^{n}\alpha_iK(x, x_i)))w^T\Phi(x) +b = \sum_{i=1}^{n}\alpha_iK(x, x_i) = 0

实际中LR不采用核函数方法,因为SVM只依赖于支持向量,而LR考虑每个点,这样核计算量非常大

多分类:P(y=i|x) = \frac{exp(w_i^Tx + b_i)}{\sum_{k}exp(w_k^Tx + b_i)}

SVM

寻找最大间隔:min\frac{1}{2}||w||^2

s.t. y_i(w^Tx_i + b) \geq 1, i=1…N

决策边界:y = I[w^Tx + b \geq 0]


  • LR与SVM都是线性分类器(一般处理二分类问题),模型求解的就是一个超平面
  • LR和SVM的表现都受到离群点的影响
  • LR和SVM都属于判别模式

  • SVM不直接依赖于数据分布,分类平面不受一类点影响(考虑局部的边界线附近的点,支持向量)

    LR受所有数据点的影响(考虑所有数据点,需要先做不平衡处理)

  • SVM依赖于数据表达的距离度量,需要先做归一化

    LR不受限制

  • LR是对数损失函数log losss,目标是少分错(通过概率假设定义)

    SVM是合叶损失函数hinge loss(侧重线性支持向量部分),目标是使分割面到所有样本的距离最大(通过空间距离定义)

    损失函数不同是二者的本质

  • SVM的解具有稀疏性,预测效率更高,SVM以来于惩罚系数,实验中需要做CV

  • SVM的损失函数自带正则,这就是SVM是结构风险最小化算法的原因

    找到一个分类平面,让位置数据仅可能少的落在分类面错误的一边

    LR假设数据服从一个分布,加正则项区拟合这个分布(LR是经验风险最小化模型)


如何选择LR和SVM
  1. 如果Feature的数量很大,跟样本数量差不多,选用LR或者是Linear Kernel的SVM。
  2. 如果Feature的数量比较小,样本数量一般,不算大也不算小,选用SVM+Gaussian Kernel
  3. 如果Feature的数量比较小,而样本数量很多,需要手工添加一些feature变成第一种情况

在什么情况下,我们需要做高维映射呢?我们之所以要做映射,就是因为特征数量不够多。如果特征数量多,那么用现有的特征就足够了。所以情况(1)的时候,我们特征数量多。并不需要映射。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值