《美团机器学习实践》笔记

本文是《美团机器学习实践》的读书笔记,主要涵盖问题建模的评估指标、样本选择和交叉验证。介绍了分类、回归、排序任务的评估指标,如精确度、召回率、F1分数、ROC曲线、AUC等,并讨论了数据去噪、采样和交叉验证在模型训练中的作用。
摘要由CSDN通过智能技术生成

偶然在群里看到了《美团机器学习实践》这本书的pdf资源,而美团又是一直以来我最敬佩的公司之一,之前从美团技术团队那个账号学到了很多,所以拜读一下这本书,这里简要整理一下读书笔记。
全书总共分为通用流程、数据挖掘、搜索与推荐、计算广告、深度学习、算法工程这几部分,涉及范围较为广泛。

一、通用流程

1.问题建模

一个问题拿到手,需要通过机器学习的方式进行处理,首先要通过评估指标、样本选择、交叉验证等一系列方式进行问题建模,而后特征工程、模型选择、模型融合,最后应用。

1.1评估指标

评估指标分为机器学习评估指标与业务指标,分别用于线下与线上。为保证线下指标与线上指标变化趋势一致,通常需要多轮模型迭代。通常评估指标按照任务类型可分为分类、回归、聚类、排序等。

1.1.1分类

对于分类指标,精确度(precision)和召回率(recall)分别表示在二分类中真实正例占全部预测样本和全部正例的比例。通常在同一个模型中,一项的升高会导致另一项的降低,此时以recall作为横轴、precision作为纵轴作PR曲线,PR曲线越靠近右上角也就是与横轴围成面积越大表示模型越好。若是用一个指标表示这两个,则可使用 F 1 F_1 F1指标,也就是以上两项的调和平均值。除此外,也可使用准确率(accuracy),表示预测正确的样本数占全部样本数的比例,因此accuracy可用于多分类。
另外一个重要的指标为ROC曲线,其横轴为假正率(FPR)也就是估计为正例的负例占全部负例的比例,纵轴为真正率(TPR)是估计为正例的正例占全部正例的比例,ROC越接近左上角越好,在数据量较少时,ROC曲线通常不平滑,随着数据量增多而逐渐平滑。ROC曲线与横轴围成的面积称为AUC(Area Under Curve),一个重要特性就是AUC等于Wilcoxon Test of Ranks,计算方式为任意挑选一个正样本与负样本,正样本输出概率值高于负样本的概率,这也是实际算法中AUC的计算方式。AUC与排序顺序高度敏感,但对输出概率是否准确就没那么敏感。
logistic loss,也就是所有样本logistic loss或者cross entropy的平均值,用于表示二分类或多分类中,预测概率分布与真实概率分布的差异性,与AUC相对

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值