机器学习系列之一通用流程(1、问题建模)

@[机器学习系列之一①问题建模
机器学习系列之一②特征工程
机器学习系列之一③常用模型
机器学习系列之一④模型融合](这里写自定义目录标题)

1、问题建模

通用流程包含4大部分,分别是:问题建模、特征工程、模型选择和模型融合。问题建模主要包含三个部分:评估指标、样本选择和交叉验证

1.1 评估指标

评估指标用于反映模型效果。通常,线下使用机器学习评估指标,线上使用业务指标评估指标根据任务类型分类,可分为分类指标、回归指标、聚类指标和排序指标。

1.1.1 分类指标

  • 精确率(P)召回率(R)P-R曲线 (二分类)、F1 、 精确率A、错误率ER(多分类)
  • ROC/AUC 正样本排在负样本前面的概率,与排序有关,对排序敏感
  • 对数损失(logloss) 衡量真实概率分布与预测概率分布之间的差异,取值越小越好,对预测概率敏感

1)P/R 多用于二分类任务,可根据混淆矩阵进行计算
其中,TP(True Positive)表示真实结果为正例,预测结果也为正例;FP(False Positive)表示真是结果为负例,但是预测结果是正例;TN(True Negative)表示真是结果为正例,预测结果为负例;FP(False Negative)表示真是结果为负例,预测结果也为负例。TP+FP+FN+TN=样本总数

精确率和召回率的定义:

P-R曲线(P为纵轴、R为横轴),PR曲线越靠近右上角越好,曲线下的面积叫AP(平均精确率)分数。

虽然PR曲线可以在一定程度上反映模型性能,但是 计算不方便,因此提出了F1值。F1值是P与R的调和平均值:

精确率和准确率要进行区分,精确率是二分类指标,准确率是多分类指标,
在这里插入图片描述
2) ROC/AUC
ROC(接收者操作特征) 纵坐标真正率(TPR),横坐标假正率(FPR),越靠近左上角性能越好。
在这里插入图片描述
AUC(Area Under ROC Curve)是ROC曲线下的面积,取值越大说明模型越可能将正

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值