机器学习基础

羊驼今天打代码了吗

已于 2022-05-10 13:27:26 修改

阅读量1.1k

点赞数

分类专栏： tensorflow 文章标签：机器学习深度学习

于 2022-04-18 12:02:27 首次发布

本文链接：https://blog.csdn.net/qq_43759081/article/details/124246083

版权

tensorflow 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

文章目录

机器学习基础

机器学习基础

一、基本问题

1. 分类[监督学习：有标签]

概念：把一个输入映射成离散的类别。(输入一组泰坦尼克数据可以预测出生还是死亡)
算法：KNN、支持向量机、决策树、朴素贝叶斯、逻辑回归、深度学习、神经网络、图像分类
评估指标：交叉熵、混淆矩阵、ROC、AUC、F1Score

2. 回归[监督学习：有标签]

概念：预测一个连续的值。(输入一个房子的地段可以预测出房价，房价是连续的数据)
算法：支持向量机、决策树、线性回归、岭回归、神经网络

3. 聚类[无监督学习：无标签]

概念：把没有标签的数据自组织的聚成一簇一簇。
算法：K-means、和密度估计、高斯混合模型

4. 降维[无监督学习：无标签]

概念：把高维数据压缩成低级维度，便于可视化

5. 强化学习

概念：训练一个智能体，能够感受到环境，接收到环境的奖励或者惩罚，根据奖惩采取下一步的动作，下一个动作又会导致新的奖励或环境的变化。[感受世界与世界交互]

	监督学习	非监督学习
数值离散	分类	聚类
数值连续	回归	降维

二、分类模型评估指标

分类问题，监督学习

如果标签是离散的，则为分类；(猫狗识别、手写数字识别等)

如果标签是连续的，则为回归。(股票、房价、用电量预测)

训练分类模型

将数据集划分为训练集和测试集

训练集 (特征标签)

在训练时将训练集的特征和标签输入模型，模型根据每个数据的特征进行标签预测，再和真实的标签进行比较。

1. 二分类问题

标签只分为两类：是/否

评估指标

二分类混淆矩阵

真实情况/预测结果	正例	反例
正例	TP（真正例）True Positive	FN（假反例）False Negative
反例	FP（假正例）False Positive	TN（真反例）True Negative
True/False：表示被预测正确/错误
Positive/Negative：表示正例/反例
横轴是模型预测的结果，纵轴是真实标签

算例

真实\预测	预测为脑肿瘤	预测为健康
脑肿瘤	True Positive	False Negative
健康	False Positive	True Negative

n=100	预测为脑肿瘤	预测为健康
脑肿瘤	45	5
健康	15	35

TP+FN：真实脑肿瘤数据个数的总和

FP+TN：真实健康数据个数的总和

TP+TN：所有被正确分类的数据个数总和

评估指标(用 # 表示个数)
$\frac{正确分类}{所有数据} = \frac{TP+TN}{TP+TN+FP+FN}$

$\frac{TP}{预测为脑肿瘤} = \frac{TP}{FP+FN}$

预测为脑肿瘤的数据中有多少是真的脑肿瘤
$Recall(查全率、敏感性、召回率)=\frac{TP}{真实为脑肿瘤}=\frac{TP}{TP+FN}$
真实为脑肿瘤的数据中有多少被预测出来了
$\frac{2}{\frac{1}{precission}+\frac{1}{recall}}=\frac{2\times{precision}+recall}{{precission}+{recall}}$
F1-Score是Precision和Recall的调和平均数，综合反映分类器的Precision和Recall
$Specificty(特异性)=\frac{TN}{真实为健康}=\frac{TN}{FP+TN}$