算法工程师知识补充 - 机器学习1

书籍及视频:周志华 机器学习

公式推导:github地址

代码讲解:机器学习实战

第1章 绪论

相关术语:数据、算法、模型、预测(测试样本、泛化能力)

模型:有监督学习(分类、回归)、无监督学习(聚类)

第2章 模型评估与选择

怎样去评估和选择模型,分为几种不同的情况

1.一种训练集一种算法

(1)经验误差与过拟合

样本个数m、输入x、期望输出y、实际输出y’、错误个数a

错误率error rate: E = a/m

accuracy精度:1-E

error误差:|y-y‘|

(2)评估方法(测试泛化能力)

训练集

测试集:留出法、交叉验证法、自助法

验证集(调参)

(3)性能度量  公式

均方误差MSE(wi:一定的权重)

 错误率与精度(E与1-E)

 查准率P

 查全率R

 有时候查准率并不有效,所以需要查全率

查准率P与查全率R是反向关系,可以看P-R反向关系图

关于阈值确定,可以看P-R反向关系图,使用平衡点、F1度量(加权)、Fbeta(P和R的加权调和平均)

多分类任务:直接支持多分类的算法、分解成多个二分类问题(度量时的P、R、F1)

 2.一种训练多种算法

/1 PR曲线

比较多个模型,可以先看面积

无法比较可以再看F1、Fbeta

/2 ROC曲线  AUC曲线

ROC曲线越饱满越好

AUC = 1  -  rank loss

3.多种训练集一种算法

 /1  代价敏感函数的错误率计算 = 1/m(圈2 *cost01+圈3 *cost10)

/2  代价曲线  

x轴  p  不断变化

y轴 想要总代价(损失期望)最小

4.比较检验(大量的概率论知识)

测试集的泛化  不等于  实际泛化

所以要进行检验

( 建议刷视频,本文只是提纲)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值