机器学习基础

机器学习基础

一、基本问题

1. 分类[监督学习:有标签]

概念:把一个输入映射成离散的类别。(输入一组泰坦尼克数据可以预测出生还是死亡)
算法:KNN、支持向量机、决策树、朴素贝叶斯、逻辑回归、深度学习、神经网络、图像分类
评估指标:交叉熵、混淆矩阵、ROC、AUC、F1Score

2. 回归[监督学习:有标签]

概念:预测一个连续的值。(输入一个房子的地段可以预测出房价,房价是连续的数据)
算法:支持向量机、决策树、线性回归、岭回归、神经网络

3. 聚类[无监督学习:无标签]

概念:把没有标签的数据自组织的聚成一簇一簇。
算法:K-means、和密度估计、高斯混合模型

4. 降维[无监督学习:无标签]

概念:把高维数据压缩成低级维度,便于可视化

5. 强化学习

概念:训练一个智能体,能够感受到环境,接收到环境的奖励或者惩罚,根据奖惩采取下一步的动作,下一个动作又会导致新的奖励或环境的变化。[感受世界与世界交互]

监督学习非监督学习
数值离散分类聚类
数值连续回归降维

二、分类模型评估指标

分类问题,监督学习

如果标签是离散的,则为分类;(猫狗识别、手写数字识别等)

如果标签是连续的,则为回归。(股票、房价、用电量 预测)

训练分类模型

将数据集划分为训练集和测试集

训练集 (特征 标签)

在训练时将训练集的特征和标签输入模型,模型根据每个数据的特征进行标签预测,再和真实的标签进行比较。

1. 二分类问题

标签只分为两类:是/否

评估指标

二分类混淆矩阵
真实情况/预测结果正例反例
正例TP(真正例)True PositiveFN(假反例)False Negative
反例FP(假正例)False PositiveTN(真反例)True Negative
True/False:表示被预测正确/错误
Positive/Negative:表示正例/反例
横轴是模型预测的结果,纵轴是真实标签
算例
真实\预测预测为脑肿瘤预测为健康
脑肿瘤True PositiveFalse Negative
健康False PositiveTrue Negative
n=100预测为脑肿瘤预测为健康
脑肿瘤455
健康1535

TP+FN:真实脑肿瘤数据个数的总和

FP+TN:真实健康数据个数的总和

TP+TN:所有被正确分类的数据个数总和

评估指标(用 # 表示个数)
A c c u a r c y ( 准 确 率 ) = 正 确 分 类 所 有 数 据 = T P + T N T P + T N + F P + F N Accuarcy(准确率) = \frac{正确分类}{所有数据} = \frac{TP+TN}{TP+TN+FP+FN} Accuarcy()==TP+TN+FP+FNTP+TN

P r e c i s i o n ( 查 准 率 ) = T P 预 测 为 脑 肿 瘤 = T P F P + F N Precision(查准率)= \frac{TP}{预测为脑肿瘤} = \frac{TP}{FP+FN} Precision()=TP=FP+FNTP

预测为脑肿瘤的数据中有多少是真的脑肿瘤
R e c a l l ( 查 全 率 、 敏 感 性 、 召 回 率 ) = T P 真 实 为 脑 肿 瘤 = T P T P + F N Recall(查全率、敏感性、召回率)=\frac{TP}{真实为脑肿瘤}=\frac{TP}{TP+FN} Recall()=TP=TP+FNTP
​真实为脑肿瘤的数据中有多少被预测出来了
F 1 − S c o r e = 2 1 p r e c i s s i o n + 1 r e c a l l = 2 × p r e c i s i o n + r e c a l l p r e c i s s i o n + r e c a l l F1-Score = \frac{2}{\frac{1}{precission}+\frac{1}{recall}}=\frac{2\times{precision}+recall}{{precission}+{recall}} F1Score=precission1+recall12=precission+recall2×precision+recall
​ F1-Score是Precision和Recall的调和平均数,综合反映分类器的Precision和Recall
S p e c i f i c t y ( 特 异 性 ) = T N 真 实 为 健 康 = T N F P + T N Specificty(特异性)=\frac{TN}{真实为健康}=\frac{TN}{FP+TN} Specificty()=TN=FP+TNTN

2. 多分类问题

和二分类问题评估指标一致,不同点是多分类问题可以求出每一个类别的Precision和Recall,F1-Score是每一类F1-score的平均值。

参考材料
1. B站“同济子豪兄”机器学习基础
2. 多分类ROC曲线

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值