《美团机器学习实践》笔记

偶然在群里看到了《美团机器学习实践》这本书的pdf资源,而美团又是一直以来我最敬佩的公司之一,之前从美团技术团队那个账号学到了很多,所以拜读一下这本书,这里简要整理一下读书笔记。
全书总共分为通用流程、数据挖掘、搜索与推荐、计算广告、深度学习、算法工程这几部分,涉及范围较为广泛。

一、通用流程

1.问题建模

一个问题拿到手,需要通过机器学习的方式进行处理,首先要通过评估指标、样本选择、交叉验证等一系列方式进行问题建模,而后特征工程、模型选择、模型融合,最后应用。

1.1评估指标

评估指标分为机器学习评估指标与业务指标,分别用于线下与线上。为保证线下指标与线上指标变化趋势一致,通常需要多轮模型迭代。通常评估指标按照任务类型可分为分类、回归、聚类、排序等。

1.1.1分类

对于分类指标,精确度(precision)和召回率(recall)分别表示在二分类中真实正例占全部预测样本和全部正例的比例。通常在同一个模型中,一项的升高会导致另一项的降低,此时以recall作为横轴、precision作为纵轴作PR曲线,PR曲线越靠近右上角也就是与横轴围成面积越大表示模型越好。若是用一个指标表示这两个,则可使用 F 1 F_1 F1指标,也就是以上两项的调和平均值。除此外,也可使用准确率(accuracy),表示预测正确的样本数占全部样本数的比例,因此accuracy可用于多分类。
另外一个重要的指标为ROC曲线,其横轴为假正率(FPR)也就是估计为正例的负例占全部负例的比例,纵轴为真正率(TPR)是估计为正例的正例占全部正例的比例,ROC越接近左上角越好,在数据量较少时,ROC曲线通常不平滑,随着数据量增多而逐渐平滑。ROC曲线与横轴围成的面积称为AUC(Area Under Curve),一个重要特性就是AUC等于Wilcoxon Test of Ranks,计算方式为任意挑选一个正样本与负样本,正样本输出概率值高于负样本的概率,这也是实际算法中AUC的计算方式。AUC与排序顺序高度敏感,但对输出概率是否准确就没那么敏感。
logistic loss,也就是所有样本logistic loss或者cross entropy的平均值,用于表示二分类或多分类中,预测概率分布与真实概率分布的差异性,与AUC相对

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值