推荐算法面试集锦--机器学习

本文深入探讨了机器学习中的关键概念,包括AUC的定义、计算方法及其作为模型评价标准的重要性。此外,还讲解了目标函数与损失函数的区别,并介绍了数据离散化的方法,如等距离散、等比例离散和K-means模型离散法。文章还涉及了多种激活函数的特性,如Sigmoid、ReLU、Leaky ReLU和PReLU。最后,提到了特征工程、集成方法对提升模型准确率的影响,以及处理数据不均衡问题的策略和无偏估计的概念。
摘要由CSDN通过智能技术生成
  1. AUC及其实现方式
    AUC(Area Under Curve)被定义为ROC曲线下的面积。我们往往使用AUC值作为模型的评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。
    其中,ROC曲线全称为受试者工作特征曲线 (receiver operating characteristic curve),它是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(敏感性)为纵坐标,假阳性率(1-特异性)为横坐标绘制的曲线。
    AUC就是衡量学习器优劣的一种性能指标。从定义可知,AUC可通过对ROC曲线下各部分的面积求和而得。
    计算方法:
    将样本分数按照从小到大排,rank(ins(i))代表排序序号,M代表正样本个数,N代表负样本个数。要注意当得分相同时,序号取的是他们的平均数值。
    在这里插入图片描述
  2. 目标函数与损失函数区别
  • 损失函数度量的是预测值与真实值之间的差异
  • 目标函数就是一个更加宽泛的概念。目标函数是优化问题中的一个概念。任何一个优化问题包括两个部分:(1)目标函数,最终是要最大化或者最小化这个函数;(2)约束条件。约束条件是可选的,比如x<0
    在有的问题中目标函数可以使用损失函数的定义,但是某些问题如极大似然估计的问题就只有目标函数,而没有损失函数,因为这个问题中不存在真实标签与预测标签。
  1. 数据离散化的方法
  • 根据业务经验分段
  • 等距离散(等宽法):该等区间法可以较好的保留数据的完整分布性。
  • 等比例离散:根据数据的频率分布进行排序,然后按照频率进行离散,好处是数据变为均匀分布,但是会更改原有数据的分布状态。简而言之,就是根据数据频率分布去划分数据区间。
  • K-means模型离散法:更好对特征进行分群聚类,突出类间差异,弱化类内差异,但是引入超参,类中心个数
  • 分位数离散法:利用四分位、五分位、十分位等分位数进行离散。
    例如:四分位距,是一种衡量一组数据离散程度的统计量,用IQR表示。其值为第一四分位数和第三四分位数的差距。
  • 二值化离散法:常见于图像。数据跟阈值比较,大于阈值设置为某一固定值(例如1),小于设置为另一值(例如0),然后得到一个只拥有两个值域的二值化数据集。
  • 卡方分裂:该分裂算法是把整个属性的取值区间当做一个离散的属性值,然后对该区间进行划分,一般是一分为二,即把一个区间分为两个相邻的区间,每个区间对应一个离散的属性值,该划分可以一直进行下去,直到满足某种停止条件,其关键是划分点的选取。 分
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值