机器学习之问题建模（一）

最新推荐文章于 2022-02-21 16:47:47 发布

dzysunshine

最新推荐文章于 2022-02-21 16:47:47 发布

阅读量1.9k

点赞数 1

分类专栏：机器学习文章标签：评估指标机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dzysunshine/article/details/89408522

版权

机器学习专栏收录该内容

46 篇文章 8 订阅

订阅专栏

文章目录

1. 问题建模思维导图
2. 机器学习解决问题的通用流程
3. 评估指标
4. 样本选择
5. 参考

1. 问题建模思维导图

在这里插入图片描述

2. 机器学习解决问题的通用流程

问题建模-特种工程-模型选择-模型融合。

问题建模应包含三方面的内容：评估指标、样本选择、交叉验证。
在这里插入图片描述

3. 评估指标

评估指标很多，我们应该选择一个跟业务指标波动一致的评估指标，这样通过观察评估指标就能判断模型效果，可以大大提高模型迭代效率。

通常，线下使用的是机器学习评估指标，线上使用的是业务指标。为此，在一个新的问题的开始阶段，都会进行多轮模型迭代，来探索与线上业务指标一致的线下指标，尽可能使线下指标的变化趋势跟线上指标一致。

评估指标根据任务类型分类，可分为分类指标、回归指标、聚类指标和排序指标等。

3.1分类指标

精确率、召回率
在这里插入图片描述
F1值
F1分数（F1 Score），是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。F1分数可以看作是模型精确率和召回率的一种加权平均，它的最大值是1，最小值是0。
数学定义：F1分数（F1-Score），又称为平衡F分数（BalancedScore），它被定义为精确率和召回率的调和平均数。
在这里插入图片描述
更一般的，我们定义Fβ分数为：
除了F1分数之外，F0.5分数和F2分数，在统计学中也得到了大量应用，其中，F2分数中，召回率的权重高于精确率，而F0.5分数中，精确率的权重高于召回率。

Micro-F1和Macro-F1

最后看Micro-F1和Macro-F1。在第一个多标签分类任务中，可以对每个“类”，计算F1，显然我们需要把所有类的F1合并起来考虑。

这里有两种合并方式：

第一种计算出所有类别总的Precision和Recall，然后计算F1，这种方式被称为Micro-F1微平均。

第二种方式是计算出每一个类的Precison和Recall后计算F1，最后将F1平均，这种范式叫做Macro-F1宏平均。

准确率与错误率
在这里插入图片描述
ROC曲线与AUC

在这里插入图片描述
对数损失logloss

3.2 回归指标

平均绝对误差MAE

在这里插入图片描述
平均绝对百分误差MAPE

均方根误差RMSE

均方根对数误差RMSLE
在这里插入图片描述
RMSLE对预测值偏小的样本惩罚比对预测值偏大的样本惩罚更大。

3.3 排序指标

平均准确率均值MAP
在这里插入图片描述
其中，
yi,j:排序中第j个元素对于查询i是否是相关的；相关为1，不相关为0。

其中，
πi(j)为j的排序位置。

归一化贴现累计收益NDCG
在这里插入图片描述

4. 样本选择

样本选择是数据预处理中一个非常重要的环节，主要从海量数据中识别和选择相关性高的数据作为模型输入。最理想的样本选择结果是，选择了最少量的训练集S，而模型的效果不会变差。样本选择的好处主要有：减小模型的运算时间、去除相关性低的数据、去除噪声数据。
样本选择有很多方法：数据去噪、采样、原型选择、训练集选择。

交叉验证

在离线环节，需要对模型进行评估，根据评估指标选出最佳模型。交叉验证是很好的方法。

交叉验证的主要方法有留出法、K折交叉验证和自助法Bootstrapping。

5. 参考

https://www.jianshu.com/p/d0c59c2470ba
https://blog.csdn.net/sinat_28576553/article/details/80258619

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
机器学习之问题建模（一）

1. 问题建模
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。