《美团机器学习实践》笔记

最新推荐文章于 2023-04-29 07:45:00 发布

Lyteins

最新推荐文章于 2023-04-29 07:45:00 发布

阅读量922

点赞数 1

本文链接：https://blog.csdn.net/lyteins/article/details/85806884

版权

本文是《美团机器学习实践》的读书笔记，主要涵盖问题建模的评估指标、样本选择和交叉验证。介绍了分类、回归、排序任务的评估指标，如精确度、召回率、F1分数、ROC曲线、AUC等，并讨论了数据去噪、采样和交叉验证在模型训练中的作用。

摘要由CSDN通过智能技术生成

偶然在群里看到了《美团机器学习实践》这本书的pdf资源，而美团又是一直以来我最敬佩的公司之一，之前从美团技术团队那个账号学到了很多，所以拜读一下这本书，这里简要整理一下读书笔记。
全书总共分为通用流程、数据挖掘、搜索与推荐、计算广告、深度学习、算法工程这几部分，涉及范围较为广泛。

一、通用流程

1.问题建模

一个问题拿到手，需要通过机器学习的方式进行处理，首先要通过评估指标、样本选择、交叉验证等一系列方式进行问题建模，而后特征工程、模型选择、模型融合，最后应用。

1.1评估指标

评估指标分为机器学习评估指标与业务指标，分别用于线下与线上。为保证线下指标与线上指标变化趋势一致，通常需要多轮模型迭代。通常评估指标按照任务类型可分为分类、回归、聚类、排序等。

1.1.1分类

对于分类指标，精确度(precision)和召回率(recall)分别表示在二分类中真实正例占全部预测样本和全部正例的比例。通常在同一个模型中，一项的升高会导致另一项的降低，此时以recall作为横轴、precision作为纵轴作PR曲线，PR曲线越靠近右上角也就是与横轴围成面积越大表示模型越好。若是用一个指标表示这两个，则可使用 $F_1$ 指标，也就是以上两项的调和平均值。除此外，也可使用准确率(accuracy)，表示预测正确的样本数占全部样本数的比例，因此accuracy可用于多分类。
另外一个重要的指标为ROC曲线，其横轴为假正率(FPR)也就是估计为正例的负例占全部负例的比例，纵轴为真正率(TPR)是估计为正例的正例占全部正例的比例，ROC越接近左上角越好，在数据量较少时，ROC曲线通常不平滑，随着数据量增多而逐渐平滑。ROC曲线与横轴围成的面积称为AUC(Area Under Curve)，一个重要特性就是AUC等于Wilcoxon Test of Ranks，计算方式为任意挑选一个正样本与负样本，正样本输出概率值高于负样本的概率，这也是实际算法中AUC的计算方式。AUC与排序顺序高度敏感，但对输出概率是否准确就没那么敏感。
logistic loss，也就是所有样本logistic loss或者cross entropy的平均值，用于表示二分类或多分类中，预测概率分布与真实概率分布的差异性，与AUC相对