一起学AI：核心基础概念

来知晓

已于 2023-07-07 23:32:17 修改

阅读量1.1k

点赞数

分类专栏：一起学AI 文章标签：人工智能机器学习深度学习

于 2023-06-23 13:08:12 首次发布

本文链接：https://blog.csdn.net/qq_17256689/article/details/131349837

版权

19 篇文章 0 订阅

订阅专栏

在这里插入图片描述

一起学AI系列博客：目录索引

本文笔记小结深度学习里的核心基础概念和高频知识点分析。

epoch和batchsize概念辨析

batchsize，是将训练集拆分成若干个mini batch，每个batch的大小称为batchsize；设训练集m个样本，每个batch样本n个，则batch个数为k=m/n个
epoch，指整个训练集通过训练模型的次数，也可称为训练次数。整个训练集每进一轮网络迭代更新权重，算1个epoch，一般10-100个epoch就能将整个训练集收敛了
参考说明：神经网络中的Epoch、Iteration、Batchsize

梯度消失与梯度爆炸问题与解决

梯度消失，又称梯度弥散
- 现象：离输出层越远的神经元越难以快速更新权重，主要源自sigmoid求导函数乘的a(1-a)，a范围是0-1，则求导函数值域就是（0,0.25）永远小于1，致使网络层数加深后，输入层附近的神经元权重几乎无法更新，难以训练。
- 解决：BP出了后，因为这一问题，深度学习又消停许多年。直到relu出现，relu求导为1或0不会有权值缩放的问题，最终更换激活函数得以解决。
梯度爆炸
- 现象：relu引入又可能导致梯度爆炸，即若权重初始值很大时，迭代w=w-D，D不断累积而来变成一个极大的数（梯度爆炸），导致w更新后极负。
- 后果：有关神经元炸死，w*a数值均小于0，relu输出0，不管啥输入都会置零，神经元失效。
- 解决：1、用改进后的relu；2、采用适当的权重初始化方法，逐层初始化

在这里插入图片描述

过拟合：就是指虽然训练集误差越来越小，但是在测试集上误差越来越大的现象。表示模型对训练集数据过拟合了，无法有效预测集外数据。
泛化性：指的是评价模型好坏的一个标准，针对新数据的预测准确率越差泛化性越差，反之，则泛化性越好。如果模型不鲁棒，或训练集准确率高、测试集准确率低，就可以称模型泛化性差。本质上，过拟合就是模型泛化性差的体现。
欠拟合：与过拟合相反，指的是模型在训练集上准确率一直无法提升到预期值，说明当前模型无法顺利拟合，需要修改模型或者增加数据。

过拟合与泛化

拟合指的是和目标的接近程度
过拟合和泛化是相互矛盾的点
过拟合，导致泛化能力差
泛化能力好，拟合精度可能就没那么完美

归一化(Normalization)
- 是为了统一尺度，
- 统一尺度为无量纲数，将数据都缩放到[0, 1]区间
- 方式1：不改分布，Min-Max 归一化
  - 通过最大值、最小值和平均值来映射，公式为：X_normal = (X - min) / (max - min)
- 方式2：改分布，Z-Score 标准化，则成为标准化(Standardization)
  - 调整后mu和sigma分别为0,1。
  - 公式为：X_normal = (X - mu) / sigma
- 效果：便于观察分析，使不同维度的神经元误差等高线一致，网络快速收敛。
正则化(Regularization)
- 惩罚高阶参数，最小化误差的同时，防止过拟合。
- 注意与正交化相区分，正交化是为了去除数据相关性，使其正交，便于计算
进阶参考：link1，link2

线性回归
- 输出是一条直线，连续值，适合做拟合
- 回归前是连续的，回归后分类，是离散的
- 类型已知，是个固定值
逻辑回归(softmax回归)
- 输出单独结果，离散值，适合做分类
- 翻译问题，这里的logistic，本质跟逻辑无关，而是取Logarithm：对数的意思
- 将R实数压缩到[0, 1]范围，转换成概率后，就能适用分类问题
  - 若X输进去，分别检测是否为0、1、…、9，输出对应的概率，选择概率最大的那个，作为最终分类结果
联系
- 逻辑回归是线性回归的特例
- sigmoid/softmax非线性激活函数接在线性回归的输出上，成为了逻辑回归
- 所有机器学习都可以化归为以上两种：
  - 如果是分类任务，输出离散值，则是逻辑回归
  - 如果是预测任务，输出连续值，则是线性回归

参考资料：

sigmoid，输出为0-1分布，输出为标量（仅有1个值），表征是该类别的概率p，另一类的概率则为1-p。适合二分类任务。
- 公式：s(x) = 1 / (1 + exp(-x))
- 导数：s’ = s * (1 - s)
softmax，输出为不同类别的概率，所有类别组成一个向量，各概率元素之和为1，概率越大的即为对应类别。适合多分类任务。
- 本质让各类别e^x / (求和e^x) = 1/ n概率
- 评价每种分类的可能性，从而输出最终的分类结果
联系与区别
- 当处理多分类任务时，两者无联系
- 当处理2分类任务时，两者相似却有些区别
  - softmax输出是两个神经元，分别对应a,b两类的概率，两者之和为1。a/b为互补关系。
  - sigmoid输出为一个神经元，为对应a类的概率值，否则为非a。
进阶了解：Softmax函数和Sigmoid函数的区别与联系