DataWhale十一月组队学习“水很深的深度学习”打卡Task01

最新推荐文章于 2024-09-18 22:37:32 发布

qqqqqqqjiajun

最新推荐文章于 2024-09-18 22:37:32 发布

阅读量707

点赞数

分类专栏：水很深的深度学习文章标签：深度学习人工智能机器学习

本文链接：https://blog.csdn.net/Soraca/article/details/121335960

版权

水很深的深度学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

DataWhale十一月组队学习“水很深的深度学习”打卡Task01

ps:学习资料的Github地址：水很深的深度学习
DataWhale地址：水很深的深度学习

1 绪论与深度学习概述

人工智能、机器学习与深度学习

人工智能

分类：

弱人工智能：机器只是看起来智能，不能真正地进行推理和解决问题，无智能也无自主意识
强人工智能：有自主意识的，认为有可能制造出能真正地进行推理和解决问题的机器
超级人工智能：认为机器的智能能彻底超过人类

机器学习

定义：让计算机能像人一样具有学习和思考的能力的技术总称，简单来说就是从已有的大量数据学得某种规律，进而用该规律对预测未知的数据，再根据评估结果修正改进已有的规律。

分类：

有监督学习：跟学师评，学生跟着老师给的标准学习什么是对错

聚类：朴素贝叶斯算法，SVM,K最临近算法
回归：决策树，线性回归，逻辑回归

无监督学习：自学标评，没有老师，学生自学，使用一些既定的标准进行评价

降维：主成分分析（PCA）算法，特征选择，线性判别分析（LDA）算法
聚类：K-Means，均值漂移(Mean Shift)算法，K-Medoids算法

强化学习：自学自评，没有老师，学生自己对问题的答案进行自我评价

深度学习

定义：一般是指通过训练多层网络结构对未知数据进行分类或回归

分类：

有监督学习方法：深度前馈网络，卷积神经网络，循环神经网络
无监督学习方法：深度信念网，深度玻尔兹曼机，深度自编码器

应用：

图像处理领域：图像分类（物体识别），物体检测，图像分割，图像回归
语音识别领域：语音识别，声纹识别，语音合成
自然语言处理领域：语言模型，情感分析，神经机器翻译，神经自动摘要，机器阅读理解，自然语言推理
综合应用：图像描述，可视问答，图像生成，视频生成

2 数学基础

具体可见：数学基础

总览

张量、矩阵运算、矩阵的基础知识、矩阵分解
概率统计、常见的（多变量）分布
信息论、熵、互信息、相对熵、交叉熵
最优化估计方法、最小二乘、线性模型

矩阵论

矩阵的基本知识

矩阵：是一个二维数组，其中的每一个元素一般由两个索引（行列）来确定，一般用大写变量表示，m行n列的实数矩阵，记做 $\in R_{m \times n}$ .
张量（Tensor）：是矢量概念的推广，可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数。标量（只有大小没有方向的单独的一个数）是0阶张量，矢量是一阶张量，矩阵是二阶张量，三维及以上数组一般称为张量。
在这里插入图片描述
矩阵的秩：矩阵列向量中的极大线性无关组的数目，记作矩阵的列秩，行秩定义类似，通常记作rank(A)。。其中，行秩=列秩=矩阵的秩
矩阵的逆：

若矩阵A为方阵，当 $rank(A_{n×n})<n$ 时，称A为奇异矩阵或不可逆矩阵；
若矩阵A为方阵，当 $rank(A_{n×n})=n$ 时，称A为非奇异矩阵或可逆矩阵

其逆矩阵 $A^{-1}$ 满足以下条件，则称 $A^{-1}$ 为矩阵A的逆矩阵：
$AA^{-1} = A^{-1}A = I_n$
其中 $I_n$ 是 $n \times n$ 的单位阵。
矩阵的广义逆矩阵：

如果矩阵不为方阵或者是奇异矩阵，不存在逆矩阵，但是可以计算其广义逆矩阵或者伪逆矩阵；
对于矩阵A，如果存在矩阵 $B$ 使得 $A B A = A$ ，则称 $B$ 为 $A$ 的广义逆矩阵。

矩阵分解

机器学习中常见的矩阵分解有特征分解和奇异值分解。奇异值分解能够用于任意 $m * n$ 矩阵，而特征分解只能适用于特定类型的方阵，故奇异值分解的适用范围更广。

先回顾下矩阵的特征值和特征向量的定义：

若矩阵 $A$ 为方阵，则存在非零向量 $x$ 和常数 $\lambda$ 满足 $Ax=\lambda x$ ，则称 $ \lambda$ 为矩阵 $ A$ 的一个特征值， $x$ 为矩阵 $A$ 关于 $\lambda$ 的特征向量。
$A_{n \times n}$ 的矩阵具有 $n$ 个特征值， $λ_1 ≤ λ_2 ≤ ⋯ ≤ λ_n$ 其对应的n个特征向量为 $𝒖_1，𝒖_2， ⋯ ，𝒖_𝑛$
矩阵的迹(trace)和行列式(determinant)的值分别为

$\operatorname{tr}(\mathrm{A})=\sum_{i=1}^{n} \lambda_{i} \quad|\mathrm{~A}|=\prod_{i=1}^{n} \lambda_{i}$
迹为特征值之和，行列式的值为特征值之积
矩阵特征分解： $A_{n \times n}$ 的矩阵具有 $n$ 个不同的特征值，那么矩阵A可以分解为 $U\Sigma U^{T}$ .

其中 $\Sigma=\left[\begin{array}{cccc}\lambda_{1} & 0 & \cdots & 0 \\ 0 & \lambda_{2} & \cdots & 0 \\ 0 & 0 & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda_{n}\end{array}\right] \quad \mathrm{U}=\left[\boldsymbol{u}_{1}, \boldsymbol{u}_{2}, \cdots, \boldsymbol{u}_{n}\right] \quad \left\|\boldsymbol{u}_{i}\right\|_{2}=1$ .

奇异值分解：对于任意矩阵 $A_{m \times n}$ ，存在正交矩阵 $U_{m \times m}$ 和 $V_{n \times n}$ ，使其满足 $\Sigma V^{T} \quad U^T U = V^T V = I$ ，则称上式为矩阵 $A$ 的特征分解。
在这里插入图片描述

概率统计

随机变量和常用统计量

随机变量：定义在样本空间上，取值于实数的函数称为随机变量，可以是离散的也可以是连续的。离散随机变量是指拥有有限个或者可列无限多个状态的随机变量，连续随机变量是指变量值不可随机列举出来的随机变量，一般取实数值。
例子：

投掷一枚硬币为正面是离散型随机事件X，发生概率P(X=1)=0.5
每次射箭距离靶心的距离X可以认为连续型随机变量，距离靶心小于1cm的概率P(X<1cm)

方差：用来衡量随机变量与数学期望之间的偏离程度。统计中的方差则为样本方差，是各个样本数据分别与其平均数之差的平方和的平均数，计算过程为：
$\operatorname{Var}(X)=E\left\{[x-E(x)]^{2}\right\}=E\left(x^{2}\right)-[E(x)]^{2}$
协方差：衡量两个随机变量X和Y直接的总体误差，计算过程为：
$\operatorname{Cov}(X,Y)=E\left\{[x-E(x)][y-E(y)]\right\}=E\left(xy\right)-E(x)E(y)$

常见的概率分布

伯努利分布

伯努利试验：又称0-1分布，只可能有两种结果的单次随机实验，是单个二值型离散随机变量的分布
其概率分布： $P * (* X = 1) = p, P (X = 0) = 1 - p$ .

二项分布

二项分布即重复n次伯努利试验，各试验之间都相互独立
如果每次试验时，事件发生的概率为p，不发生的概率为1-p，则n次重复独立试验中事件发生k次的概率为

$P(X = k) = C_n^kp^k(1-p)^{n-k}$

均匀分布
均匀分布，又称矩形分布，在给定长度间隔[a,b]内的分布概率是等可能的，均匀分布由参数a，b定义，概率密度函数为：
$\frac{1}{b-a}, \quad a < x <b$
在这里插入图片描述
高斯分布

高斯分布，又称正态分布(normal)，是实数中最常用的分布，由均值μ和标准差σ决定其分布，概率密度函数为：
$\frac{1}{\sqrt{2 \pi}\sigma}e^{-\frac{(x-\mu)^2}{2 \sigma^2}}$
指数分布

常用来表示独立随机事件发生的时间间隔，参数为 $λ > 0$ 的指数分布概率密度函数为： $\lambda e^{-\lambda x} \quad x \geq 0$ . 指数分布重要特征是无记忆性，例如婴儿出生的时间间隔

多变量概率分布

条件概率(Conditional probability)：事件X在事件Y发生的条件下发生的概率， $P (X ∣ Y)$

联合概率(Joint probability)：表示两个事件X和Y共同发生的概率， $P (X, Y)$

条件概率和联合概率的性质： $\frac{P(Y,X)}{P(X)} \quad P(X ) > 0$ .

先验概率(Prior probability)：根据以往经验和分析得到的概率，在事件发生前已知，它往往作为“由因求果”问题中的“因”出现。如全概率公式。

后验概率(Posterior probability)：指得到“结果”的信息后重新修正的概率，是“执果寻因”问题中的“因”，后验概率是基于新的信息，修正后来的先验概率所获得的更接近实际情况的概率估计。如贝叶斯公式

例子：在这里插入图片描述
全概率公式：设事件 ${A_i\}$ 是样本空间 $Ω$ 的一个划分，且 $P(A_i)>0(i=1,2,...,n)$ ，那么： $\sum_{i = 1}^nP(A_i)P(B|A_i)$ .

贝叶斯公式：全概率公式给我们提供了计算后验概率的途径，即贝叶斯公式
$P\left(\mathrm{~A}_{i} \mid \mathrm{B}\right)=\frac{P\left(\mathrm{~B} \mid \mathrm{A}_{i}\right) P\left(\mathrm{~A}_{i}\right)}{P(\mathrm{~B})}=\frac{P\left(\mathrm{~B} \mid \mathrm{A}_{i}\right) P\left(\mathrm{~A}_{i}\right)}{\sum_{j=1}^{n} P\left(\mathrm{~A}_{j}\right) P\left(\mathrm{~B} \mid \mathrm{A}_{j}\right)}$

信息论

熵（Entropy）

一个物理学概念，它表示一个系统的不确定性程度，或者说是一个系统的混乱程度，信息熵类似与熵，只是领域不同。

信息熵：可以看作是样本集合纯度一种指标，也可以认为是样本集合包含的平均信息量。
假定当前样本集合X中第i类样本 $𝑥_𝑖$ 所占的比例为 $P(𝑥_𝑖)(i=1,2,...,n)$ ，则X的信息熵定义为：
$-\sum_{i = 1}^n P(x_i)\log_2P(x_i)$
H(X)的值越小，则X的纯度越高，蕴含的不确定性越少