【机器学习】有监督算法基础

烂尾主教

已于 2023-04-22 10:00:39 修改

阅读量548

点赞数 1

分类专栏：机器学习文章标签：机器学习算法人工智能

于 2023-03-11 12:11:50 首次发布

本文链接：https://blog.csdn.net/qq_25218219/article/details/129453359

版权

机器学习专栏收录该内容

8 篇文章 4 订阅

订阅专栏

有监督学习笔记

有监督学习的概念

有监督的学习的主要任务是根据数据对象的特征，预测其标签，相应的学习算法需要对经验学习
经验来自带标签的训练数据，训练数据是从数据对象集合中随机采样的数据，也称样本。

特征组（特征）

定义：特征组在有监督的学习任务中，每个数据对象的n个特征构成的向量 $x=(x_{1},x_{2},...,x_{n})\in R^n$ ,称该对象的特征组，也就是特征向量。设 $X\subseteq R^n$ 是特征组的所有可能取值构成的集合，称 $X$ 为样本空间。

模型

定义：设 $X$ 为样本空间, $Y$ 为标签空间， $\phi$ 为 $X - > Y$ 的映射集合，称 $\phi$ 为模型空间，任意的模型空间中的映射 $h\in \phi$ ,称为一个模型

有监督学习任务

定义：给定样本空间 $X$ ，标签空间 $Y$ ,未知的特征分布 $D$ 与标签分布 $\{D_{x}:x\in X\}$ ，有监督的学习任务是训练一个模型 $h$ ，即计算从 $X$ 到 $Y$ 的一个映射，记作： $h : X - > Y$ 对任意的样本的特征向量 $x$ ，由 $h (x)$ 作为对 $x$ 的标签的预测。 $\hat{y}=h(x)$

损失函数

定义：设 $X$ 是样本空间， $Y$ 是标签空间，损失函数是一个从 $Y\times Y$ 到正实数 $R +$ 的函数 $l:Y\times Y->R^+$ ：并要其满足如以下性质，对任意 $y\in Y$ ,有 $l (y, y) = 0$ 例如：0-1损失函数 $l(y,\hat{y})= \left\{\begin{aligned}0, if\ y=\hat{y}\\1,otherwise\end{aligned}\right.$
其中： $\hat{y}=h(x),x\in X,\hat{y}\in Y$ ( $y$ 是样本的标签真实值， $\hat{y}$ 是对样本x的标签预测值)

例如：平方损失函数 $l(y,\hat{y})=(y-\hat{y})^2,y,\hat{y}\in R$

测试数据与模型度量（测试误差）

在有监督学习中，给定样本空间 $X$ ，标签空间 $Y$ ，未知的特征分布 $D$ 与标签分布 $\{D_x:x\in X\}，$ 假设有监督学习算法输出的模型型为 $h$ 。给定一组数据 $T=\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),...,(x^{(t)},y^{(t)})\}$ 其中， $x^{(1)},x^{(2)},...,x^{(t)}\thicksim D,$ 为 $X$ 中依据特征分布 $D$ 的独立采样,并且对任意 $1\leq i\leq t,$ 有 $y^{(i)}\thicksim D_{x^{(i)}},$ 将 $T$ 是测试数据集，用模型 $h$ 在测试数据集 $T$ 上的平均损失 $L_T(h)=\frac{1}{t}\sum_{i=1}^{t}l(h(x^{(i)},y^{(i)}))$ 作为模型 $h$ 的效果的度量
当测试数据规模足够大时，经验损失能够良好近似期望损失。

一般来说给定数据集（不清楚其分布 $D$ ），首先将其以一定的比例随机分成测试集合和训练集合，这样两个集合都会满足其原集合的分布 $D$ ，在训练集合上训练得出模型 $h$ ，在测试集合上计算损失，作为模型 $h$ 的效果度量

经验损失最小化算法架构（训练误差）

给定损失函数 $l ，$ 以及给定一组数据 $S=\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),...,(x^{(t)},y^{(t)})\}$ 其中， $x^{(1)},x^{(2)},...,x^{(t)}\thicksim D,$ 为 $X$ 中依据特征分布 $D$ 的独立采样,并且对任意 $1\leq i\leq t,$ 有 $y^{(i)}\thicksim D_{x^{(i)}},$ 将 $S$ 是训练数据集，在训练数据集上训练得到的模型 $h$ 在训练数据 $S$ 上的平均损失 $L_S(h)=\frac{1}{t}\sum_{i=1}^{t}l(h(x^{(i)},y^{(i)}))$ 作为模型 $h$ 的经验损失
无约束经验损失最小化算法架构：
给定样本空间 $X$ ，标签空间 $Y$ ，模型空间 $\varPhi$ ，
损失函数： $l:Y\times Y->R^+$
输入： $m$ 个训练数据 $S=\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),...,(x^{(m)},y^{(m)})\}$
输出模型： $h_{s}=\argmin_{h\in\phi}L_s(h)$
特点： $h_s(x)$ 在训练数据 $S$ 上的经验损失 $L_s(h)=0$ ,无约束经验损失最小化算法，容易带来过度拟合问题
ps：无约束指的是空间（ $\phi$ ）无约束（所有符合要求的模型组成的模型空间）
过度拟合示例：
假定样本空间X=[-1,1],特征分布D是X上的均匀分布，标签空间Y=ℝ，标签分布Dx=N(x, 0.3)是期望为x且标准差是0.3的正态分布，损失函数是平方损失函数。

过度拟合：训练误差小，测试误差大!

$h_s(x)$ 在训练数据 $S$ 上的经验损失 $L_S(h)$ ----训练误差
$h_s(x)$ 在测试数据 $S$ 上的经验损失 $L_T(h)$ ----测试误差
·过拟合：训练误差小，测试误差大
·欠拟合：训练误差比较大
·泛化能力：训练误差小，测试误差小

我们致力于模型的泛化能力，防止拟合的方法：

引入模型假设（对标签分布或者模型结构做出恰当的假设，比如上面的例子，可以假设为线性模型）
正则化（ $L_1、L_2$ 正则化）
$d ro p o u t$ （用于深度神经网络）
扩大训练样本

经验损失最小化实例：墨渍分类

在这里插入图片描述

from sklearn.datasets._samples_generator import make_blobs
import pandas as pd
import matplotlib.pylab as plt
import numpy as np
from sklearn.model_selection import train_test_split


# 感知器算法
class Perception:
    def __init__(self):
        self.b = None
        self.w = None

    def fit(self, X, y):
        m, n = X.shape
        w = np.zeros((n, 1))
        b = 0
        done = False
        while not done:
            done = True
            for i in range(m):
                x = X[i].reshape(1, -1)
                if y[i] * (x.dot(w) + b) <= 0:
                    w = w + y[i] * x.T
                    b = b + y[i]
                    done = False
        self.w = w
        self.b = b

    def predict(self, x):
        return np.sign(x.dot(self.w) + self.b)


# 构建数据集合
X, y = make_blobs(n_samples=100, centers=2, n_features=2, cluster_std=0.6, random_state=0)
y[y == 0] = -1
data = pd.DataFrame(X, columns=['x1', 'x2'])
data['y'] = y
# 根据题意：划分不同的test_size
fig, axes = plt.subplots(nrows=2, ncols=3, figsize=(12, 8))
axes = axes.ravel()
ax1 =fig.add_subplot(131)
ax1.plot(data['x1'][data['y'] == 1], data['x2'][data['y'] == 1], "bs", ms=3)
ax1.plot(data['x1'][data['y'] == -1], data['x2'][data['y'] == -1], "rs", ms=3)
ax1.set_title('Original Data')


for i, test_size in enumerate([0.5, 0.4, 0.3, 0.2], start=1):
    print(i,test_size)
    # 划分数据集（训练集，测试集）
    X_train, X_test, y_train, y_test = train_test_split(data[['x1', 'x2']], data['y'], test_size=test_size)
    # 训练模型
    model = Perception()
    model.fit(np.array(X_train), np.array(y_train))
    w = model.w
    b = model.b

    # 作图
    if i == 3:
        i = i+2
    ax = axes[i]
    ax.plot(data['x1'][data['y'] == 1], data['x2'][data['y'] == 1], "bs", ms=3)
    ax.plot(data['x1'][data['y'] == -1], data['x2'][data['y'] == -1], "rs", ms=3)
    ax.set_title('Test Size: {:.1f}'.format(test_size))
    x_0 = np.linspace(-1, 3.5, 200)
    line = -w[0] / w[1] * x_0 - b / w[1]
    ax.plot(x_0, line)

plt.subplots_adjust(hspace=0.3)
plt.show()

在这里插入图片描述
结论：

在所有的测试集比例下，感知机模型都表现出了较好的分类效果，成功将数据集分为了两个簇。
在测试集比例为0.2的情况下，模型的表现最好，分类效果最接近真实分界线。

正则化算法

前言:

在经验损失最小化的过程中，合理的选择模型假设，是避免过度拟合的有效方法
尽管选取了模型假设，还是有可能发生过拟合，如何处理？正则化算法

正则化常用策略:

$L_1$ 正则化
$L_2$ 正则化

奥卡姆剃刀法则：如无必要，勿增实体

例如：每个 $n$ 元线性函数 $h(x)=<w,x>+b,x\in R^n$ 都可以用 $n + 1$ 个参数表示： $w=(w_1,w_2,...,w_n)和b$ 用 $h_w$ 表示由 $w=(w_1,w_2,...,w_n)$ 这组参数表示的模型。
机器学习中，用参数 $w$ 的范数来量化模型 $h_w$ 的复杂度 $L_1范数： |w|=|w_1|+|w_2|+...+|w_n|$ $L_2范数：||w||=\sqrt{w_1^2+w_2^2+...+w_n^2}$