2 模型评估

2 模型评估

01 评估指标

  1. 准确率的局限性
    1. 准确率是指分类正确的样本占总样本个数的比例。
    2. 当不同类别的样本比例非常不均衡时,可以使用更为有效的平均准确率(每个类别下的样本准确率的算术平 均) 作为模型评估的指标。
  2. 精确率与召回率
    1. 精确率是指分类正确的正样本个数占分类器判定为正样本的样本个数的比例。
    2. 召回率是指分类正确的正样本个数占真正的正样本个数的比例。
    3. F1 score是精准率和召回率的调和平均值。
      • F1=(2×precision×recall)/(precision+recall)
    4. P-R(PrecisionRecall) 曲线
      • P-R曲线的横轴是召回率, 纵轴是精确率
  3. 平方根误差
    1. 如果存在个别偏离程度非常大的离群点(Outlier) 时, 即使离群点数量非常少, 也会让RMSE指标变得很差。需要在数据预处理的阶段把这些噪声点过滤掉。
    2. 平均绝对百分比误差(Mean Absolute Percent Error, MAPE)
      • MAPE相当于把每个点的误差进行了归一化, 降低了个别离群点带来 的绝对误差的影响。

02 ROC曲线

  1. 什么是ROC曲线?
    1. 受试者工作特征曲线,二值分类器最重要的指标之一。
    2. ROC曲线的横坐标为假阳性率(False Positive Rate, FPR); 纵坐标为真阳性率(True Positive Rate, TPR) 。
  2. 如何绘制ROC曲线?
    • 通过动态地调整截断点, 从最高的得分开始(实际上是从正无穷开始, 对应着ROC曲线的零点) , 逐渐调整到最低得分, 每一个截断点都会对应一个FPR和 TPR, 在ROC图上绘制出每个截断点对应的位置, 再连接所有点就得到最终的 ROC曲线。
  3. AUC
    1. AUC指的是ROC曲线下的面积大小,AUC的取值一般在0.5~1之间。
    2. AUC越大, 说明分类器越可能把真正的正样本排在前面, 分类性能越好。
  4. ROC曲线相比P-R曲线有什么特点?
    1. 当正负样本的分布发生变化时, ROC曲线的形状能够基本保持不变, 而P-R曲线的形状一般会发生较剧烈的变化。
    2. ROC曲线能够尽量降低不同测试集带来的干扰, 更加客观地衡量模型本身的性能。
    3. 希望更多地看到模型在特定数据集上的表现, P-R曲线则能够更直观地反映其性能 。

03 距离

  1. 余弦相似度、余弦距离、欧氏距离
    1. 两个向量夹角的余弦, 关注的是向量之间的角度关系, 并不关心它们的绝对大小, 其取值范围是[-1,1]。
    2. 当一对文本相似度的长度差距很大、 但内容相近时, 如果使用词频或词向量作为特征, 它们在特征空间中的的欧氏距离通常很大; 而如果使用余弦相似度的话, 它们之间的夹角可能很小, 因而相似度高。
    3. 余弦相似度在高维情况下依然保持“相同时为1, 正交时为0, 相反时为-1”的性质, 而欧氏距离的数值则受维度的影响, 范围不固定, 并且含义也比较模糊。
    4. 欧氏距离体现数值上的绝对差异, 而余弦距离体现方向上的相对差异。
  2. 距离
    1. 在一个集合中, 如果每一对元素均可唯一确定一个实数, 使得三条距离公理(正定性, 对称性, 三角不等式) 成立, 则该实数可称为这对元素之间的距离。
    2. 余弦距离满足正定性和对称性, 但是不满足三角不等式, 因此它并不是严格定义的距离。

04 A/B测试

  1. 需要进行在线A/B测试的原因
    1. 离线评估无法完全消除模型过拟合的影响, 因此, 得出的离线评估结果无法完全替代线上评估结果。
    2. 离线评估无法完全还原线上的工程环境。
    3. 线上系统的某些商业指标在离线评估中无法计算。
  2. 划分实验组和对照组
    • 注意样本的独立性和采样方式的无偏性。

05 模型评估的检验方法

  1. Holdout检验
    1. 将原始的样本集合随机划分 成训练集和验证集两部分。
    2. 缺点 即在验证集上计算出来的最后评估指标与原始分组有很大关系。
  2. 交叉检验
    1. k-fold交叉验证: 首先将全部样本划分成k个大小相等的样本子集; 依次遍历这k个子集, 每次把当前子集作为验证集, 其余所有子集作为训练集, 进行模型的训练和评估; 最后把k次评估指标的平均值作为最终的评估指标。
    2. 在实际实验中, k经常取10。
  3. 自助法
    1. 当样本规模比较小时, 将样本集进行划分会让训练集进一步减小, 这可能会影响模型训练效果。
    2. 对于总数为n的样本集合, 进行n次有放回的随机抽样, 得到大小为n的训练集。 n次采样过程中, 有的样本会被重复采样, 有的样本没有被抽出过, 将这些没有被抽出的样本作为验证集, 进行模型验证, 这就是自助法的验证过程。
    3. 当样本数很大时, 大约有36.8%的样本从未被选择过, 可作为验证集。

06 超参数调优方法

  1. 网格搜索
    1. 网格搜索法一般会先使用较广的搜索范围和较大的步长, 来寻找全局最优值可能的位置。
    2. 然后会逐渐缩小搜索范围和步长, 来寻找更精确的最优值。
    3. 可以降低所需的时间和计算量, 但由于目标函数一般是非凸的, 所以很可能会错过全局最优值。
  2. 随机搜索
    1. 如果样本点集足够大, 那么通过随机采样也能大概率地找到全局最优值, 或其近似值。
    2. 和网格搜索的快速版一样, 它的结果也是没法保证的。
  3. 贝叶斯优化算法
    1. 通过对目标函数形状进行学习, 找到使目标函数向全局最优值提升的参数。
    2. 贝叶斯优化算法会在探索和利用之间找到一个平衡点, “探索”就是在还未取样的区域获取采样点;而“利用”则是根据后验分布在最可能出现全局最值的区域进行采样。

07 过拟合与欠拟合

  1. 降低过拟合的方法
    1. 获得更多的训练数据。更多的样本能够让模型学习到更多更有效的特征, 减小噪声的影响。
    2. 降低模型复杂度。
    3. 正则化方法。
    4. 集成学习方法。
  2. 降低欠拟合的方法
    1. 添加新特征。挖掘“上下文特征”“ID类特征”“组合特征”等新的特征,因子分解机、梯度提升决策树、 Deep-crossing等都可以成为丰富特征的方法。
    2. 增加模型复杂度。
    3. 减小正则化系数。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值