实用机器学习笔记-第三章-机器学习模型分类与介绍

最新推荐文章于 2024-08-13 20:36:53 发布

11408考研休息室

最新推荐文章于 2024-08-13 20:36:53 发布

阅读量1.8k

点赞数

文章标签：机器学习人工智能深度学习

本文链接：https://blog.csdn.net/u013551615/article/details/123224201

版权

一、机器学习模型

本章节内容：介绍机器学习的模型分类、常用分类的模型的代表

1. 入门介绍

1.1 机器学习算法分类

可监督学习：在有标号数据上训练模型，去预测标号
自监督学习：标号由数据中生成出来的(word2Vec,BERT)
半监督学习：有标注的数据和大量的没有标注的数据
- 任务1:像监督学习一样，预测我的标注
- 任务2:去预测没有标注的数据
无监督学习：在无标注的数据上训练（聚类clustering，分布估计density estimation如GAN）
强化学习：模型与环境交互，对环境做一些交互，用一些观察点得到环境给我的反馈来最大化我的reward，eg：机器人走路

本课程更多的讨论的是监督学习与无监督学习

1.2 监督学习的组成部分

1.2.1 模型：根据输入进行输出一个标号，是核心部分

1.2.2 损失函数：衡量模型预测值和真实值的差距，eg：平方损失

1.2.3 目标函数：在训练过程中需要优化的函数，eg：最小化损失函数

1.2.4 优化：把模型中可以学习的参数（没有指定值的参数）填上值，使得能够解决目标函数（或者最小化损失函数）

1.3 监督学习的模型分类

1.3.1 决策树：树来做决定

1.3.2 线性模型：输出是输入的线性组合

1.3.3 核方法（机器）：用核函数来衡量两个样本的相似度

1.3.4 神经网络：用多层神经网络，学习一个特征表示

1.4 总结

请添加图片描述

2. 决策树模型

2.1作用

2.1.1 用于分类

请添加图片描述

2.1.2 用于回归

请添加图片描述

2.2 好处与坏处

2.2.1 好处

可解释的
可以处理数字和类别类的特征

2.2.2 坏处

不鲁棒（不稳定），可以使用集成学习来辅助
复杂的树导致过拟合，可以剪枝
不利于并行计算

2.3 提升树模型的办法-Bagging（随机森林）

一棵树不稳定，就用多棵树来做训练，提高鲁棒性

2.3.1 特点

随机并行训练
采用投票（分类问题）或者取平均值（回归问题）

2.3.2 随机性的意义

Bagging：在训练集中随机采样一些样本，带替换的采样
- 中文理解：均匀、有放回的采样
从样本中随机采样一些特征，不用全部特征

2.4 提升树模型的办法2-Boosting（基于梯度的Boosting）

2.4.1 特点

在残差数据上顺序的训练多棵树
t代表时间， $F_t(x)$ 代表过去时间内t-1棵树输出的和，然后在残差数据上训练一个新的树 $f_t$ ， $F_t+_1(x)$ = $F_t(x)$ + $f_t(x)$
- 残差数据residuals {( $x_i,y_i-F_t(x_i)$ )} $_i=_1,...$
如果损失函数采用均方误差，则 $\frac{\partial L}{\partial F}$ = {( $x_i,y_i-F_t(x_i)$ )} $_i=_1,...$ ，因此叫做梯度Boostring

3. 线性模型

3.1 线性回归

给定数据x = [ $x_1$ , $x_2$ ,… $x_p$ ],线性模型预测我的y = $w_1x_1+w_2x_2+…+w_px_p+b $= <w,x>+b
可学习的参数:w,b；权重w = [ $w_1$ , $w_2$ ,…, $w_p$ ] 偏移 b是标量 <a,b>是点乘
目标函数：优化均方误差MSE
收集n次训练的样本数据 $[x_1,x_2,...,x_n]^T\in\mathbb{R}^{n*p}$
$w^*,b^* = \mathop{argmin}\limits_{w,b}(X,y,w,b)$ = $\mathop{argmin}\limits_{w,b}\frac{1}{n}\sum\limits_{i=1}^n\parallel y_i - <x_i,w> - b\parallel ^2$

3.2 线性分类

多分类问题，输出是一个向量（回归问题输出一个实数值），每个向量的第i个值表示当前物体是这个类别的置信度
置信度计算: $o_i = <x,w_i> + b_i$
输出标号 $y = [y_1,y_2,...,y_m]$ 使用独热编码，当 $y_i=1$ 代表着就是预测的结果，其余的都是0
优化均方误差： $\frac{1}{m}\parallel o - y \parallel _2^2$ ，预测 $\mathop{argmax_i}\{o_i\}_{i=1}^m$ 最大置信度标记为 ${y_i=1}$

3.3 Softmax回归（用于解决多分类问题）

线性回归存在的问题是，过于关注预测不正确的样本，其实只需要关注置信度高的样本
解决办法：把置信度（实数值）换成概率。 $\hat{y} = \mathop{softmax(o)}$ ，其中 $\hat{y}_i = \frac{\mathop{exp(o_i)}}{\sum_{k=1}^m\mathop{exp(o_k)}}$
选择最大的 $\hat{y}_i$ 作为我的预测结果
通过交叉熵来比较两个分布的差异，令其最小化。

4. 小批量随机梯度下降SGD

4.1 SGD算法介绍

模型参数w（把之前的偏移b包含在其中），批量大小b，学习率 $\eta_t$ ,时刻t
随机的初始化一个 $w_1$
重复t=1,2,…直到模型收敛为止
- 步骤1:在n个样本中随机采样 $I_t\subset\{1,...,n\}$ , $I_t$ 的大小就是批量大小b
- 步骤2:更新 $w_{t+1} = w_t - \eta_t\partial_{w_t}L(X_{I_t},y_{I_t},w_t)$
- 什么是收敛：目标函数在每个样本上的损失不再下降或者说其他一些指标趋向平衡