机器学习 Chapter1 绪论

Chapter1 绪论

1.1 简介

  1. 机器学习定义:

    ​ A computer program is said to learn from experience E with respect to some class of tasks T and performance P, if it’s performance at tasks in T, as measured by P, improves with experience E.

    ​ 一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,当且仅当,有了经验E后,经过P评判,程序在处理T时的性能有所提升。

    ​ “我认为经验E就是程序上万次的自我练习的经验,而任务T就是下棋,性能度量值P就是它在与一些新对手比赛时的获胜的概率。”

  2. 人工智能是一门学科:
    人工智能 A I { 机器学习 M L { 神经网络 N N { 深度学习 D L . . . . . . . . . 人工智能AI \left\{ \begin{matrix} 机器学习ML \left\{ \begin{matrix} 神经网络NN \left\{ \begin{matrix} 深度学习DL \\... \end{matrix} \right. \\... \end{matrix} \right. \\ ... \end{matrix} \right. 人工智能AI 机器学习ML 神经网络NN{深度学习DL.........

  3. 怎么实现机器学习:
    数据集 ⟶ 方法 训练 ⟶ 预测 数据集 \stackrel{方法}{\longrightarrow} 训练 \longrightarrow 预测 数据集方法训练预测

  4. 机器学习四大方向:
    机器学习 { Classical learning { Supervised Unsupervised Reinforcement learning Neural nets and Deep learning Ensemble methods 机器学习 \left\{ \begin{array}{l} \text{Classical learning} \left\{ \begin{array}{l} \text{Supervised} \\ \text{Unsupervised} \end{array} \right. \\ \text{Reinforcement learning} \\ \text{Neural nets and Deep learning} \\ \text{Ensemble methods} \end{array} \right. 机器学习 Classical learning{SupervisedUnsupervisedReinforcement learningNeural nets and Deep learningEnsemble methods
    ​ 四大方向,百花齐放,一家独大,算力为先。

1.2 常用算法 & 实际应用

  1. 机器学习十大算法

  2. 基本术语:

    • 数据:训练集、测试集、特征、标签
    • 任务:预测目标 { 回归:连续 分类:离散 聚类:无标记 \begin{cases} \text{回归:连续} \\ \text{分类:离散} \\ \text{聚类:无标记} \end{cases} 回归:连续分类:离散聚类:无标记 、 有无标记 { 监督 无监督 半监督 \begin{cases} \text{监督} \\ \text{无监督} \\ \text{半监督} \end{cases} 监督无监督半监督
    • 泛化能力:独立同分布 i.i.d
  3. 机器学习方法分类
    机器学习 { 监督 { 分类Classification { 朴素贝叶斯 决策树 ∗ 支持向量机 Logistic回归 K近邻 回归Regression { 线性回归 多项式回归 逻辑回归 无监督 { 聚类Clustering { K均值聚类 Mean-Shift DBSCAN 降维Dimension Reduction { 主成分分析 奇异值分解 狄里克雷特分解 潜在语义分析 并联规则学习Association Rule Learning { Apriori Euelat FP-growth 弱监督:人脸识别,但圈出整个人 半监督: 1000 个数据, 100 个有标签 机器学习 \begin{cases} 监督 \begin{cases} \text{分类Classification} \begin{cases} 朴素贝叶斯 \\ 决策树 \\ \textcolor{red}{*支持向量机} \\ \text{Logistic回归} \\ \text{K近邻} \end{cases} \\ \text{回归Regression} \begin{cases} 线性回归 \\ 多项式回归 \\ 逻辑回归 \end{cases} \end{cases} \\无监督 \begin{cases} \text{聚类Clustering} \begin{cases} \text{K均值聚类} \\ \text{Mean-Shift} \\ \text{DBSCAN} \end{cases} \\ \text{降维Dimension Reduction} \begin{cases} 主成分分析 \\ 奇异值分解 \\ 狄里克雷特分解 \\ 潜在语义分析 \end{cases} \\ \text{并联规则学习Association Rule Learning} \begin{cases} \text{Apriori} \\ \text{Euelat} \\ \text{FP-growth} \end{cases} \end{cases} \\弱监督:人脸识别,但圈出整个人 \\半监督:1000个数据,100个有标签 \end{cases} 机器学习 监督 分类Classification 朴素贝叶斯决策树支持向量机Logistic回归K近邻回归Regression 线性回归多项式回归逻辑回归无监督 聚类Clustering K均值聚类Mean-ShiftDBSCAN降维Dimension Reduction 主成分分析奇异值分解狄里克雷特分解潜在语义分析并联规则学习Association Rule Learning AprioriEuelatFP-growth弱监督:人脸识别,但圈出整个人半监督:1000个数据,100个有标签

1.3 历史与应用

  1. 机器学习简要发展历史回顾
    • 推理期:1950s~1970s初
    • 知识期:1970s中
    • 学科形成:1980s
    • 繁荣期:1980s~至今
  2. 应用驱动:基础性、透明化的“支持技术、服务技术”

1.4 模型评估与选择

  1. 经验误差与过拟合

    • 误差:
      • 训练误差(经验误差):学习器在训练集上的误差
      • 泛化误差:学习器在新样本上的误差
    • 过拟合与欠拟合
      • 过拟合:优化目标加正则项,early stop
      • 欠拟合:拓展分支,增加训练轮数
  2. 评估方法

    • 留出法:直接将数据集分为两个互斥的集合,其中一个作为训练集,另一个作为测试集
    • 交叉验证法:分为 k 个互斥集合,保留一个作为测试集,训练 k 次
      • 10折交叉验证
      • 10次10折交叉验证
    • 自助法:有放回采样 m 次作为训练集,约有 35.8 % 35.8\% 35.8% 未被采样到的样本作为测试集
      • 包外估计
  3. 调参与最终模型

  4. 性能度量

    • 回归任务 - 均方误差
      E ( f ; D ) = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 E(f;D)=\frac{1}{m}\sum^{m}_{i=1}(f(x_i)-y_i)^2 E(f;D)=m1i=1m(f(xi)yi)2

    • 分类任务 - 错误率与精度

      • 错误率
        E ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) ≠ y i ) E(f;D)=\frac{1}{m}\sum^{m}_{i=1}\mathbb{I}(f(x_i)\neq y_i) E(f;D)=m1i=1mI(f(xi)=yi)

      • 精度
        a c c ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) = y i ) = 1 − E ( f ; D ) acc(f;D) = \frac{1}{m} \sum^{m}_{i=1} \mathbb{I}(f(x_i)=y_i) = 1 - E(f;D) acc(f;D)=m1i=1mI(f(xi)=yi)=1E(f;D)

    • 分类任务 - 查准率、查全率与 F1

      • 分类结果混淆矩阵

        真实情况\预测结果正例反例
        正例TP 真正例FN 假反例
        反例FP 假正例TN 真反例
      • 查准率 P
        P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP

      • 查全率 R
        R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP

      • P-R 曲线(查准率-查全率曲线),平衡点(查准率=查全率)

      • F1 度量
        F 1 = 2 × P × R P + R = 2 × T P 样例总数 + T P − T N F1=\frac{2 \times P \times R}{P+R}=\frac{2 \times TP}{样例总数+TP-TN} F1=P+R2×P×R=样例总数+TPTN2×TP

      • F1 度量的一般形式 - F β F_\beta Fβ
        F β = ( 1 + β 2 ) × P × R ( β 2 × P ) + R F_\beta = \frac{(1+\beta^2) \times P \times R}{(\beta^2 \times P) + R} Fβ=(β2×P)+R(1+β2)×P×R

    • ROC 与 AUC

      • ROC - 受试者工作特征

      • ROC曲线:纵轴 - 真正例率 TPR,横轴 - 假正例率 FPR
        T P R = T P T P + F N F P R = F P T N + F P TPR = \frac{TP}{TP+FN} \\ FPR = \frac{FP}{TN+FP} TPR=TP+FNTPFPR=TN+FPFP

      • AUC - ROC 曲线下的面积

    • 代价敏感错误率与代价曲线

      • 二分类代价矩阵

        真实类别\预测类别第 0 类第 1 类
        第 0 类0 c o s t 01 cost_{01} cost01
        第 1 类 c o s t 10 cost_{10} cost100
      • 代价敏感错误率
        E ( f ; D ; c o s t ) = 1 m ( ∑ x i ∈ D + I ( f ( x i ) ≠ y i ) × c o s t 01 + ∑ x i ∈ D − I ( f ( x i ) ≠ y i ) × c o s t 10 ) E(f;D;cost) = \frac{1}{m} \left( \sum_{x_i \in D^+} \mathbb{I} (f(x_i) \neq y_i) \times cost_{01} +\sum_{x_i \in D^-} \mathbb{I} (f(x_i) \neq y_i) \times cost_{10} \right) E(f;D;cost)=m1(xiD+I(f(xi)=yi)×cost01+xiDI(f(xi)=yi)×cost10)

  5. 比较检验

    • 假设检验
      • 二项检验
      • t 检验
    • 交叉验证 t 检验
    • McNemar 检验
    • Friedman 检验与 Nemenyi 后续检验
  6. 偏差与方差

    • 泛化误差可分解为偏差、方差与噪声之和
    • 一般来说,偏差与方差是有冲突的,这称为偏差-方差窘境

\mathbb{I} (f(x_i) \neq y_i) \times cost_{10}
\right)
$$

  1. 比较检验

    • 假设检验
      • 二项检验
      • t 检验
    • 交叉验证 t 检验
    • McNemar 检验
    • Friedman 检验与 Nemenyi 后续检验
  2. 偏差与方差

    • 泛化误差可分解为偏差、方差与噪声之和
    • 一般来说,偏差与方差是有冲突的,这称为偏差-方差窘境
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值