数据竞赛第四次任务

最新推荐文章于 2021-12-05 18:36:31 发布

weixin_43388834

最新推荐文章于 2021-12-05 18:36:31 发布

阅读量425

点赞数

LR和SVM原理详述
1.LR模型原理

    一个事件的几率是指该事件发生的概率和该事件不发生的概率的比值，如果事件发生的几率为p，那么该事件的几率是：p/(1-p),该事件的对数几率是：
    在这里插入图片描述
    LR模型是在线性回归的基础上，把特征进行线性组合，再把组合的结果通过一层sigmoid函数映射成结果是1或是0的概率。
    LR的优缺点
    1.优点
    一、预测结果是界于0和1之间的概率；
    二、可以适用于连续性和类别性自变量；
    三、容易使用和解释；
    2.缺点
    一、对模型中自变量多重共线性较为敏感，例如两个高度相关自变量同时放入模型，可能导致较弱的一个自变量回归符号不符合预期，符号被扭转。需要利用因子分析或者变量聚类分析等手段来选择代表性的自变量，以减少候选变量之间的相关性；
    二、预测结果呈“S”型，因此从log(odds)向概率转化的过程是非线性的，在两端随着log(odds)值的变化，概率变化很小，边际值太小，slope太小，而中间概率的变化很大，很敏感。导致很多区间的变量变化对目标概率的影响没有区分度，无法确定阀值。

2.SVM模型原理

    SVM（support Vector Mac）又称为支持向量机，是一种二分类的模型。当然如果进行修改之后也是可以用于多类别问题的分类。支持向量机可以分为线性核非线性两大类。其主要思想为找到空间中的一个更够将所有数据样本划开的超平面，并且使得本本集中所有数据到这个超平面的距离最短。
    我们首先需要了解一下线性分类器这个概念。比如给定一系列的数据样本，每个样本都有对应的一个标签。为了使得描述更加直观，我们采用二维平面进行解释，高维空间原理也是一样。举个简单子：如下图所示是一个二维平面，平面上有两类不同的数据，分别用圆圈和方块表示。我们可以很简单地找到一条直线使得两类数据正好能够完全分开。但是能将据点完全划开直线不止一条，那么在如此众多的直线中我们应该选择哪一条呢？从直观感觉上看图中的几条直线，是不是要更好一些呢？是的我们就是希望寻找到这样的直线，使得距离这条直线最近的点到这条直线的距离最短。这读起来有些拗口，我们从图三中直观来解释这一句话就是要求的两条外面的线之间的间隔最大。这是可以理解的，因为假如数据样本是随机出现的，那么这样分割之后数据点落入到其类别一侧的概率越高那么最终预测的准确率也会越高。在高维空间中这样的直线称之为超平面，因为当维数大于三的时候我们已经无法想象出这个平面的具体样子。那些距离这个超平面最近的点就是所谓支持向量，实际上如果确定了支持向量也就确定了这个超平面，找到这些支持向量之后其他样本就不会起作用了。
    在这里插入图片描述

1.SVM线性可分

线性可分数据就是低维度的、直观的就可以看出来的数据，用一条直线就可以把数据划开。我们将寻找+1、-1两类样本间隔最大的平面。于是，对于+1样本的数据，有wx(+1)+b(+1)=0；对于-1样本的数据，有wx(-1)+b(-1)=0，（这里的括号是角标，表示类型）

2.SVM线性不可分数据（软间隔、松弛变量的应用）

    之前的数据都是用一个超平面可以完美的将两种类别的数据分开，即切开后左黑右白，左右没有任何杂质，然而我们实际的数据往往都不是泾渭分明的，间隔中很多数据是线性不可分的，即便我们找到了这样一个超平面，也很难说这个超平面就是适用的，因为很大程度上这个超平面是过拟合的情况下得来的。
    为了缓解这个问题，我们可以允许一些支持向量样本出错，使得判定更为松弛，这样的好处就在于减少了我们的过拟合的情况。
    我们引入松弛间隔 ξ（越小越好）使得判定更为松弛,作为惩罚，我们引入惩罚因子C，原来的min 1/2 （w^2）后面多多了一个惩罚模块，这个模块就是用C对松弛“代价” ξ的和的惩罚。我们最终就是要使得式子最小min，并且错误分类的个数（cost&penalty）也尽量小，C自然而然就成为了协调者，也自然而然成为了我们实际问题中需要考虑、尝试的参数。
    svm的优缺点
    优点：
    (1)非线性映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性映射；
    (2)对特征空间划分的最优超平面是SVM的目标,最大化分类边际的思想是SVM方法的核心；
    (3)支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量。
    (4)SVM 是一种有坚实理论基础的新颖的小样本学习方法。它基本上不涉及概率测度及大数定律等,因此不同于现有的统计方法。从本质上看,它避开了从归纳到演绎的传统过程,实现了高效的从训练样本到预报样本的“转导推理”,大大简化了通常的分类和回归等问题。
    (5)SVM 的最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了“维数灾难”。
    (6)少数支持向量决定了最终结果,这不但可以帮助我们抓住关键样本、“剔除”大量冗余样本,而且注定了该方法不但算法简单,而且具有较好的“鲁棒”性。这种“鲁棒”性主要体现在:
    ①增、删非支持向量样本对模型没有影响;
    ②支持向量样本集具有一定的鲁棒性;
    ③有些成功的应用中,SVM 方法对核的选取不敏感

缺点：
(1) SVM算法对大规模训练样本难以实施
由于SVM是借助二次规划来求解支持向量，而求解二次规划将涉及m阶矩阵的计算（m为样本的个数），当m数目很大时该矩阵的存储和计算将耗费大量的机器内存和运算时间。针对以上问题的主要改进有有J.Platt的SMO算法、T.Joachims的SVM、C.J.C.Burges等的PCGC、张学工的CSVM以及O.L.Mangasarian等的SOR算法
(2) 用SVM解决多分类问题存在困难
经典的支持向量机算法只给出了二类分类的算法，而在数据挖掘的实际应用中，一般要解决多类的分类问题。可以通过多个二类支持向量机的组合来解决。主要有一对多组合模式、一对一组合模式和SVM决策树；再就是通过构造多个分类器的组合来解决。主要原理是克服SVM固有的缺点，结合其他算法的优势，解决多类问题的分类精度。如：与粗集理论结合，形成一种优势互补的多类问题的组合分类器。
python实现
1.LR模型

#导入工具包
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
#LR模型训练
lr = LogisticRegression(C=120,dual=True)
lr.fit(x_train,y_train)
#LR模型预测
y_pred_lr = lr.predict(x_test)
#计算LR模型的F1_score
f1_lr = f1_score(y_test,y_pred_lr,average='micro')
print('LR模型的F1_score是{:.6f}'.format(f1_lr))

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11

在这里插入图片描述
2.SVM

#导入工具包
from sklearn import svm
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
#SVM模型训练
clf = svm.LinearSVC(C=5,dual=False)
clf.fit(x_train,y_train)
#SVM模型预测
y_pred_svm = clf.predict(x_test)
#计算SVM模型的F1_score
f1_svm = f1_score(y_test,y_pred_svm,average='micro')
print('LR模型的F1_score是{:.6f}'.format(f1_svm))

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11

在这里插入图片描述
参考文献

1.https://github.com/Heitao5200/DGB/blob/master/model/model_code/LR_data_w_tfidf.py
2.https://github.com/Heitao5200/DGB/blob/master/model/model_code/SVM_data_w_tfidf.py
3.https://blog.csdn.net/hao5335156/article/details/82388151
4.https://blog.csdn.net/sinat_26566137/article/details/82156382
---------------------
作者：Asher_n
来源：CSDN
原文：https://blog.csdn.net/weixin_41151521/article/details/89189229
版权声明：本文为博主原创文章，转载请附上博文链接！

weixin_43388834

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据竞赛第四次任务

LR和SVM原理详述1.LR模型原理一个事件的几率是指该事件发生的概率和该事件不发生的概率的比值，如果事件发生的几率为p，那么该事件的几率是：p/(1-p),该事件的对数几率是：在这里插入图片描述 LR模型是在线性回归的基础上，把特征进行线性组合，再把组合的结果通过一层sigmoid函数映射成结果是1或是0的概率。 LR的优缺点 1.优点一...
复制链接

扫一扫