机器学习算法- 处理分类问题常用算法

交叉熵公式:

1 LR 怎么实现多分类

修改LR 的损失函数,使用softmax 函数构造模型解决多分类问题,softmax 分类模型会有相同与类别数的输出,输出的值对于样本属于各个类别的概率,最后对于样本进行预测的类型为概率值最高的那个类别。

方式二: 根绝每个类别都建立一个二分类器,本类别的样本标签定义为0,其他分类样本标签定义为,则有多少个类别就构造多少个LR 分类器。

有互斥的用softmax,没有的用多个LR。

2 SVM 神时候用线性核什么时候用高斯核?

SVM 为一个二分类模型,它的基本模型定于为特征空间上的间隔最大的线性分类器,而它的学习策略为最大化分类间隔,最终可转化为凸二次规划问题求解。

LR 是参数模型,SVM 为非参数模型,LR 采用的损失函数是logistical loss ,而SVM 采用的是hingeloss,在学习分类器的时候SVM 只考虑与分类最相关的少数支持向量点,LR的模型相对简单,在进行大规模线性分类时比较方便。

3 朴素贝叶斯法的要求是

贝叶斯定理,特征条件独立假设

解析: 朴素贝叶斯属于生成式模型,学习输入和输出的联合概率分布,给定输入x,利用贝叶斯定理求出最大的后验概率作为输出y。

4 训练集中类别不均衡,哪个参数最不准确?

准确度

解析: 对于二分类问题,正负样例相差较大为99:1,模型更容易被训练成预测较大占比的类别,因为模型只需要对每个样例按照0.99 的概率预测正类,该模型就能达到99% 的准确率。

5 SVNM 使用对偶计算的目的是什么,如何推到出来,手写推导

一是方便核函数的引入,二是原问题的求解复杂度与特征的维数相关,而转成对偶问题后只与问题的变量个数有关,由于SVM的变量个数为支持向量的个数,相较于特征位数较少,因此转对偶问题,通过拉格朗日算子法使带约束的优化目标转化为不带约束的优化函数,使得w和b 的偏导数等于零,带入原来的式子,再转为对偶问题。

6 SVM 的物理意义是什么?

构造一个最优化的超平面在空间中分割数据

7 如果数据有问题,怎么处理?

1 上下采样平衡正负样例比例,考虑缺失值,数据归一化。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值