- AUC及其实现方式
AUC(Area Under Curve)被定义为ROC曲线下的面积。我们往往使用AUC值作为模型的评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。
其中,ROC曲线全称为受试者工作特征曲线 (receiver operating characteristic curve),它是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(敏感性)为纵坐标,假阳性率(1-特异性)为横坐标绘制的曲线。
AUC就是衡量学习器优劣的一种性能指标。从定义可知,AUC可通过对ROC曲线下各部分的面积求和而得。
计算方法:
将样本分数按照从小到大排,rank(ins(i))代表排序序号,M代表正样本个数,N代表负样本个数。要注意当得分相同时,序号取的是他们的平均数值。
- 目标函数与损失函数区别
- 损失函数度量的是预测值与真实值之间的差异
- 目标函数就是一个更加宽泛的概念。目标函数是优化问题中的一个概念。任何一个优化问题包括两个部分:(1)目标函数,最终是要最大化或者最小化这个函数;(2)约束条件。约束条件是可选的,比如x<0
在有的问题中目标函数可以使用损失函数的定义,但是某些问题如极大似然估计的问题就只有目标函数,而没有损失函数,因为这个问题中不存在真实标签与预测标签。
- 数据离散化的方法
- 根据业务经验分段
- 等距离散(等宽法):该等区间法可以较好的保留数据的完整分布性。
- 等比例离散:根据数据的频率分布进行排序,然后按照频率进行离散,好处是数据变为均匀分布,但是会更改原有数据的分布状态。简而言之,就是根据数据频率分布去划分数据区间。
- K-means模型离散法:更好对特征进行分群聚类,突出类间差异,弱化类内差异,但是引入超参,类中心个数
- 分位数离散法:利用四分位、五分位、十分位等分位数进行离散。
例如:四分位距,是一种衡量一组数据离散程度的统计量,用IQR表示。其值为第一四分位数和第三四分位数的差距。 - 二值化离散法:常见于图像。数据跟阈值比较,大于阈值设置为某一固定值(例如1),小于设置为另一值(例如0),然后得到一个只拥有两个值域的二值化数据集。
- 卡方分裂:该分裂算法是把整个属性的取值区间当做一个离散的属性值,然后对该区间进行划分,一般是一分为二,即把一个区间分为两个相邻的区间,每个区间对应一个离散的属性值,该划分可以一直进行下去,直到满足某种停止条件,其关键是划分点的选取。 分