推荐算法面试集锦--机器学习

fengkuang

已于 2022-05-05 11:15:47 修改

阅读量1.6k

点赞数

分类专栏：推荐系统机器学习文章标签：机器学习推荐算法算法

于 2022-03-15 23:22:25 首次发布

本文链接：https://blog.csdn.net/fegnkuang/article/details/123515269

版权

本文深入探讨了机器学习中的关键概念，包括AUC的定义、计算方法及其作为模型评价标准的重要性。此外，还讲解了目标函数与损失函数的区别，并介绍了数据离散化的方法，如等距离散、等比例离散和K-means模型离散法。文章还涉及了多种激活函数的特性，如Sigmoid、ReLU、Leaky ReLU和PReLU。最后，提到了特征工程、集成方法对提升模型准确率的影响，以及处理数据不均衡问题的策略和无偏估计的概念。

摘要由CSDN通过智能技术生成

AUC及其实现方式
AUC（Area Under Curve）被定义为ROC曲线下的面积。我们往往使用AUC值作为模型的评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好，而作为一个数值，对应AUC更大的分类器效果更好。
其中，ROC曲线全称为受试者工作特征曲线（receiver operating characteristic curve），它是根据一系列不同的二分类方式（分界值或决定阈），以真阳性率（敏感性）为纵坐标，假阳性率（1-特异性）为横坐标绘制的曲线。
AUC就是衡量学习器优劣的一种性能指标。从定义可知，AUC可通过对ROC曲线下各部分的面积求和而得。
计算方法：
将样本分数按照从小到大排，rank(ins(i))代表排序序号，M代表正样本个数，N代表负样本个数。要注意当得分相同时，序号取的是他们的平均数值。
目标函数与损失函数区别

损失函数度量的是预测值与真实值之间的差异
目标函数就是一个更加宽泛的概念。目标函数是优化问题中的一个概念。任何一个优化问题包括两个部分：(1)目标函数，最终是要最大化或者最小化这个函数；(2)约束条件。约束条件是可选的，比如x<0
在有的问题中目标函数可以使用损失函数的定义，但是某些问题如极大似然估计的问题就只有目标函数，而没有损失函数，因为这个问题中不存在真实标签与预测标签。

数据离散化的方法

根据业务经验分段
等距离散（等宽法）：该等区间法可以较好的保留数据的完整分布性。
等比例离散：根据数据的频率分布进行排序，然后按照频率进行离散，好处是数据变为均匀分布，但是会更改原有数据的分布状态。简而言之，就是根据数据频率分布去划分数据区间。
K-means模型离散法：更好对特征进行分群聚类，突出类间差异，弱化类内差异，但是引入超参，类中心个数
分位数离散法：利用四分位、五分位、十分位等分位数进行离散。
例如：四分位距，是一种衡量一组数据离散程度的统计量，用IQR表示。其值为第一四分位数和第三四分位数的差距。
二值化离散法：常见于图像。数据跟阈值比较，大于阈值设置为某一固定值（例如1），小于设置为另一值（例如0），然后得到一个只拥有两个值域的二值化数据集。
卡方分裂：该分裂算法是把整个属性的取值区间当做一个离散的属性值，然后对该区间进行划分，一般是一分为二，即把一个区间分为两个相邻的区间，每个区间对应一个离散的属性值，该划分可以一直进行下去，直到满足某种停止条件，其关键是划分点的选取。分