复现经典：《统计学习方法》第12章监督学习方法总结

最新推荐文章于 2024-11-11 16:44:48 发布

湾区人工智能

最新推荐文章于 2024-11-11 16:44:48 发布

阅读量294

点赞数

文章标签：决策树机器学习 python 深度学习人工智能

第 12 章监督学习方法总结

本文是李航老师的《统计学习方法》一书的代码复现。作者：黄海广

备注：代码都可以在github中下载。我将陆续将代码发布在公众号“机器学习初学者”，可以在《统计学习方法》的代码实现专辑在线阅读。

1 适用问题

监督学习可以认为是学习一个模型，使它能对给定的输入预测相应的输出。监督学习包括分类、标注、回归。本篇主要考虑前两者的学习方法。

分类问题是从实例的特征向量到类标记的预测问题；标注问题是从观测序列到标记序列(或状态序列)的预测问题。可以认为分类问题是标注问题的特殊情况。分类问题中可能的预测结果是二类或多类；而标注问题中可能的预测结果是所有的标记序列，其数目是指数级的。

感知机、近邻法、朴素贝叶斯法、决策树是简单的分类方法，具有模型直观、方法简单、实现容易等特点；

逻辑斯谛回归与最大熵模型、支持向量机、提升方法是更复杂但更有效的分类方法，往往分类准确率更高；

隐马尔可夫模型、条件随机场是主要的标注方法。通常条件随机场的标注准确率更事高。

2 模型

分类问题与标注问题的预测模型都可以认为是表示从输入空间到输出空间的映射.它们可以写成条件概率分布或决策函数的形式。前者表示给定输入条件下输出的概率模型，后者表示输入到输出的非概率模型。

朴素贝叶斯法、隐马尔可夫模型是概率模型；感知机、近邻法、支持向量机、提升方法是非概率模型；而决策树、逻辑斯谛回归与最大熵模型、条件随机场既可以看作是概率模型，又可以看作是非概率模型。

直接学习条件概率分布或决策函数的方法为判别方法，对应的模型是判别模型：感知机、近邻法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、条件随机场是判别方法。

首先学习联合概率分布，从而求得条件概率分布的方法是生成方法，对应的模型是生成模型：朴素贝叶斯法、隐马尔可夫模型是生成方法。

决策树是定义在一般的特征空间上的，可以含有连续变量或离散变量。感知机、支持向量机、k 近邻法的特征空间是欧氏空间(更一般地，是希尔伯特空间)。提升方法的模型是弱分类器的线性组合，弱分类器的特征空间就是提升方法模型的特征空间。

感知机模型是线性模型；而逻辑斯谛回归与最大熵模型、条件随机场是对数线性模型；近邻法、决策树、支持向量机(包含核函数)、提升方法使用的是非线性模型。

3 学习策略

在二类分类的监督学习中，支持向量机、逻辑斯谛回归与最大熵模型、提升方法各自使用合页损失函数、逻辑斯谛损失函数、指数损失函数，分别写为：

这 3 种损失函数都是 0-1 损失函数的上界，具有相似的形状。(见下图，由代码生成）

import numpy as np
import math
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
plt.figure(figsize=(10,8))
x = np.linspace(start=-1, stop=2, num=1001, dtype=np.float)
logi = np.log(1 + np.exp(-x)) / math.log(2)
boost = np.exp(-x)
y_01 = x < 0
y_hinge = 1.0 - x
y_hinge[y_hinge < 0] = 0

plt.plot(x, y_01, 'g-', mec='k', label='（0/1损失）0/1 Loss', lw=2)
plt.plot(x, y_hinge, 'b-', mec='k', label='（合页损失）Hinge Loss', lw=2)
plt.plot(x, boost, 'm--', mec='k', label='（指数损失）Adaboost Loss', lw=2)
plt.plot(x, logi, 'r-', mec='k', label='（逻辑斯谛损失）Logistic Loss', lw=2)
plt.grid(True, ls='--')
plt.legend(loc='upper right',fontsize=15)
plt.xlabel('函数间隔:$yf(x)$',fontsize=20)
plt.title('损失函数',fontsize=20)
plt.show()