机器学习 Chapter1 绪论

YunchengLi

已于 2024-04-05 11:30:18 修改

阅读量399

点赞数 6

分类专栏：机器学习-课程笔记文章标签：机器学习

于 2024-04-05 11:24:06 首次发布

本文链接：https://blog.csdn.net/RioiiRichard/article/details/137396777

版权

3 篇文章 0 订阅

订阅专栏

Chapter1 绪论

机器学习定义：

A computer program is said to learn from experience E with respect to some class of tasks T and performance P, if it’s performance at tasks in T, as measured by P, improves with experience E.

一个程序被认为能从经验E中学习，解决任务T，达到性能度量值P，当且仅当，有了经验E后，经过P评判，程序在处理T时的性能有所提升。

“我认为经验E就是程序上万次的自我练习的经验，而任务T就是下棋，性能度量值P就是它在与一些新对手比赛时的获胜的概率。”
人工智能是一门学科：
$\left\{ \begin{matrix} 机器学习ML \left\{ \begin{matrix} 神经网络NN \left\{ \begin{matrix} 深度学习DL \\... \end{matrix} \right. \\... \end{matrix} \right. \\ ... \end{matrix} \right.$
怎么实现机器学习：
$\stackrel{方法}{\longrightarrow} 训练 \longrightarrow 预测$
机器学习四大方向：
$\left\{ \begin{array}{l} \text{Classical learning} \left\{ \begin{array}{l} \text{Supervised} \\ \text{Unsupervised} \end{array} \right. \\ \text{Reinforcement learning} \\ \text{Neural nets and Deep learning} \\ \text{Ensemble methods} \end{array} \right.$
四大方向，百花齐放，一家独大，算力为先。

机器学习十大算法
基本术语：
- 数据：训练集、测试集、特征、标签
- 任务：预测目标 $\begin{cases} \text{回归：连续} \\ \text{分类：离散} \\ \text{聚类：无标记} \end{cases}$ 、有无标记 $\begin{cases} \text{监督} \\ \text{无监督} \\ \text{半监督} \end{cases}$
- 泛化能力：独立同分布 i.i.d
机器学习方法分类
$\begin{cases} 监督 \begin{cases} \text{分类Classification} \begin{cases} 朴素贝叶斯 \\ 决策树 \\ \textcolor{red}{*支持向量机} \\ \text{Logistic回归} \\ \text{K近邻} \end{cases} \\ \text{回归Regression} \begin{cases} 线性回归 \\ 多项式回归 \\ 逻辑回归 \end{cases} \end{cases} \\无监督 \begin{cases} \text{聚类Clustering} \begin{cases} \text{K均值聚类} \\ \text{Mean-Shift} \\ \text{DBSCAN} \end{cases} \\ \text{降维Dimension Reduction} \begin{cases} 主成分分析 \\ 奇异值分解 \\ 狄里克雷特分解 \\ 潜在语义分析 \end{cases} \\ \text{并联规则学习Association Rule Learning} \begin{cases} \text{Apriori} \\ \text{Euelat} \\ \text{FP-growth} \end{cases} \end{cases} \\弱监督：人脸识别，但圈出整个人 \\半监督：1000个数据，100个有标签 \end{cases}$

性能度量

回归任务 - 均方误差
$E(f;D)=\frac{1}{m}\sum^{m}_{i=1}(f(x_i)-y_i)^2$
分类任务 - 错误率与精度
- 错误率
  $E(f;D)=\frac{1}{m}\sum^{m}_{i=1}\mathbb{I}(f(x_i)\neq y_i)$
- 精度
  $\frac{1}{m} \sum^{m}_{i=1} \mathbb{I}(f(x_i)=y_i) = 1 - E(f;D)$
分类任务 - 查准率、查全率与 F1
- 分类结果混淆矩阵
  
  真实情况\预测结果正例反例
  正例 TP 真正例 FN 假反例
  反例 FP 假正例 TN 真反例
- 查准率 P
  $P=\frac{TP}{TP+FP}$
- 查全率 R
  $R=\frac{TP}{TP+FN}$
- P-R 曲线（查准率-查全率曲线），平衡点（查准率=查全率）
- F1 度量
  $F1=\frac{2 \times P \times R}{P+R}=\frac{2 \times TP}{样例总数+TP-TN}$
- F1 度量的一般形式 - $F_\beta$
  $F_\beta = \frac{(1+\beta^2) \times P \times R}{(\beta^2 \times P) + R}$
ROC 与 AUC
- ROC - 受试者工作特征
- ROC曲线：纵轴 - 真正例率 TPR，横轴 - 假正例率 FPR
  $\frac{TP}{TP+FN} \\ FPR = \frac{FP}{TN+FP}$
- AUC - ROC 曲线下的面积

真实情况\预测结果	正例	反例
正例	TP 真正例	FN 假反例
反例	FP 假正例	TN 真反例

代价敏感错误率与代价曲线

二分类代价矩阵

真实类别\预测类别	第 0 类	第 1 类
第 0 类	0	$cost_{01}$
第 1 类	$cost_{10}$	0

代价敏感错误率
$\frac{1}{m} \left( \sum_{x_i \in D^+} \mathbb{I} (f(x_i) \neq y_i) \times cost_{01} +\sum_{x_i \in D^-} \mathbb{I} (f(x_i) \neq y_i) \times cost_{10} \right)$