UnusualDeepLearning-task1

最新推荐文章于 2022-05-29 23:41:48 发布

yxyibb

最新推荐文章于 2022-05-29 23:41:48 发布

阅读量3.4k

点赞数

分类专栏：算法梳理文章标签：机器学习人工智能深度学习

本文链接：https://blog.csdn.net/u012835414/article/details/121314918

版权

算法梳理专栏收录该内容

23 篇文章 0 订阅

订阅专栏

task1绪论与深度学习概述、数学基础

(Datawhale31期组队学习)

文章目录

task1绪论与深度学习概述、数学基础

基础点

人工智能、机器学习与深度学习
- 起源与发展
- 重要的研究机构和著名科学家
深度学习的定义和主要应用
- 定义、理论和方法
- 主要应用
数学基础
- 张量、矩阵运算、矩阵基础、矩阵分解
- 概率统计、常见的（多变量）分布
- 信息论、熵、互信息、相对熵、交叉熵
- 最优化估计方法、最小二乘、线性模型

知识点

1 人工智能、机器学习与深度学习

概念区分

1.1 人工智能

利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统

1.2 机器学习

让计算机具有像人一样的学习和思考能力的技术的总称。具体来说是从已知数据中获得规律，并利用规律对未知数据进行预测的技术

1.2.1分类
在这里插入图片描述
> 有监督学习（SupervisedLearning）有老师，学生从老师那获得对错指示、最终答案的学习方法。跟老师评。
> 无监督学习（UnsupervisedLearning）没有老师，学生跟标准自学，跟着标准评价。自学标评
> 强化学习（ReinforcementLearning）没有老师，学生对问题答案自我评价。自学自评
1.2.2发展 在这里插入图片描述 1.2.3机构+科学家

Machine Learning at University of Toronto
- GeoffreyHinton:在BP算法，Boltzmannmachines, Time-delay neural nets, Variational learning and Deep learning做出杰出文献
- 深度学习之父；多伦多大学杰出教授；Google副总裁及首席科学顾问；英国皇家科学院院士，美国国家工程院外籍院士，美国艺术与科学院外籍院士
Deepmind at Google
AI research at Facebook
清华大学AI研究院
中国科学院自动化所
中国科学院数学与系统科学研究院
Tencent AI Lab
华为诺亚方舟实验室
阿里达摩院
Yann LeCun:卷积神经网络之父；纽约大学杰出教授；Facebook人工智能实验室负责人；纽约大学数据科学实验室创始人。在学习理论与学习算法、卷积神经网络领域做出杰出文献。
Yoshua Bengio:蒙特利尔大学全职教授；加拿大统计学习算法研究主席；加拿大皇家科学院院士；CIFAR Senior Fellow；创办了ICLR国际会议。在MachineLearning，Deeplearning 领域做出杰出文献。
吴恩达(Andrew Ng):斯坦福大学计算机科学系和电子工程系副教授；在线教育平台Coursera的联合创始人(with Daphne Koller)；2014年5月16日，吴恩达加入百度，担任百度公司首席科学家；2017年10月，吴恩达出任Woebot公司新任董事长。

2 深度学习的定义和主要应用

2.1 定义

通过训练多层网络结构对未知数据进行分类或回归

有监督学习方法

深度前馈网络
卷积神经网络
循环神经网络
无监督学习方法
深度信念网
深度玻尔兹曼机
深度自编码器

2.2 应用

图像
- 物体识别：整幅图分类、识别
- 物体检测：检测图像中物体的位置进而识别物体
- 图像分割：对图像中的特定物体按边缘进行分割
- 图像回归：预测图像中物体组成部分的坐标
nlp
- 语言模型：根据之前词预测下一个单词
- 情感分析：分析文本体现的情感（正负向、正负中或多态度类型）
- 神经机器翻译：基于统计语言模型的多语种互译
- 神经自动摘要：根据文本自动生成摘要
- 机器阅读理解：通过阅读文本回答问题、完成选择题或完型填空
- 自然语言推理：根据一句话（前提）推理出另一句话（结论）
语音
- 语音识别：语音识别为文字
- 声纹识别：识别哪个人的声音
- 语音合成：根据文字合成特定人的语音
综合应用
- 图像描述：根据图像给出图像的描述句子
- 可视问答：根据图像或视频回答问题
- 图像生成：根据文本描述生成图像
- 视频生成：根据故事自动生成视频

3 数学基础

3.1 矩阵论

矩阵：二维数组，其中的每个元素一般由两个索引来确定一般用大写变量表示，m行n列的实数矩阵，记做 $\in R_{m \times n}$
张量(Tensor)：矢量的推广，表示在一些矢量、标量和其他张量之间的线性关系的多线性函数。标量是0阶张量，矢量是一阶张量，矩阵是二阶张量，三维及以上数组一般称张量。
矩阵的秩(Rank)：矩阵列向量中的极大线性无关组的数目，记作矩阵的列秩，也可定义行秩。行秩=列秩=矩阵的秩，通常记作rank(A)。
矩阵的逆s
- A为方阵，当 $rank(A_{n \times n})<n$ 时，A为奇异矩阵或不可逆矩阵
- A为方阵，当 $rank(A_{n \times n})=n$ 时，A为非奇异矩阵或可逆矩阵
- 其逆矩阵 $A^{-1}$ 满足以下条件，称 $A^{-1}$ 为矩阵A的逆矩阵：
  $AA^{-1} = A^{-1}A = I_{n}$
  其中， $I_{n}$ 是 $\times n$ 的单位阵。
矩阵的广义逆矩阵
- 矩阵不为方阵或者是奇异矩阵，不存在逆矩阵，但是可以计算其广义逆矩阵或者伪逆矩阵；
- 矩阵A，若存在矩阵B使得 $A B A = A$ ，B为A的广义逆矩阵
矩阵分解
- 特征向量：若矩阵 A为方阵，则存在非零向量x和常数 $\lambda$ 满足 $Ax=\lambda x$ ，则称 $\lambda$ 为矩阵 $A$ 的一个特征值，x为矩阵A 关于 $\lambda$ 的特征向量。
- $A_{n \times n}$ 的矩阵具有 n 个特征值， $λ_1 ≤ λ_2 ≤ ⋯ ≤ λ_n$ 其对应的n个特征向量为 $𝒖_1$ ， $𝒖_2$ ，⋯， $𝒖_n$
- 矩阵的迹trace： $tr(A)=\sum_{i=1}^n\lambda_i$
- 行列式determinant： $∣A∣=\prod_{i=1}^n \lambda_i$
矩阵特征分解
$A_{n \times n}$ 的矩阵具有n个不同的特征值，那么矩阵A可以分解为 $U\Sigma U^{T}$
其中，
$U=[𝒖_1,𝒖_2,...,𝒖_n]$ , $𝒖_i||_2 = 1$
矩阵奇异值分解
对于任意矩阵 $A_{m \times n}$ ，存在正交矩阵 $U_{m \times m}$ 和 $V_{n \times n}$ ，使其满足 $U\sum V^T$ , $U^TU=V^TV=I$ ,则称上式为矩阵A的特征分解。

3.2 概率统计

随机变量(Random variable)：随机事件的数量表现，随机事件数量化的好处是可以用数学分析的方法来研究随机现象。
- 离散：拥有有限个或者可列无限多个状态的随机变量
- 连续：变量值不可随机列举出来的随机变量，一般取实数值。
- 随机变量通常用概率分布来指定它的每个状态的可能性。
常见概率分布
- 伯努利分布：又称0-1分布，单个二值型离散随机变量的分布
  - 概率分布： $P (X = 1) = p$ , $P (X = 0) = 1 - p$
- 二项分布即重复n次伯努利试验，各试验之间都相互独立
  - 如果每次试验时，事件发生的概率为p，不发生的概率为1-p，则n次重复独立试验中事件发生k次的概率为: $P(X=k)=C_n^kp^k(1−p)^{n−k}$
- 均匀分布，矩形分布，在给定长度间隔[a,b]内的分布概率是等可能的，均匀分布由参数a，b定义，概率密度函数为 $p(x)=\frac {1} {b-a}$ , $a < x < b$
- 高斯分布，又称正态分布(normal)，是实数中最常用的分布，由均值 $μ$ 和标准差 $σ$ 决定其分布，概率密度函数为： $p(x)=\frac {1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$
- 指数分布：独立随机事件发生的时间间隔，参数为λ>0的指数分布概率密度函数为： $\lambda e^{-\lambda x} \quad x \geq 0$ . 指数分布重要特征是无记忆性
多变量概率分布
- 条件概率（conditional probability）事件X在事件Y发生的条件下发生的概率 $P (X ∣ Y)$
- 联合概率（joint probability）表示两个事件X和Y共同发生的概率， $P (X, Y)$
- 条件概率和联合概率的性质：
  - $P(X|Y)=\frac{P(X,Y)}{P(Y)} \quad P(Y)>0$
  - 推广n个事件： $P(X_1,X_2,...,X_n)=P(X_1|X_2,...,X_n)P(X_2|X_3,...,X_n)...P(x_n-1|X_n)P(X_n)=P(X_n)\Pi_{i=1}^{n-1}P(X_i|X_i+1,...,X_n)$
- 先验概率（Prior probability）根据以往经验和分析得到的概率，在事件发生前已知，作为“由因求果”的“因”
- 后验概率（Posterior probability）得到“结果”的信息后重新修正的概率，是“执果寻因”问题中的“因”，后验概率是基于新的信息，修正后来的先验概率所获得的更接近实际情况的概率估计。
  - $P(A=1∣B=1)=\frac {P(A=1)P(B=1∣A=1)}{P(B=1)}$
- 全概率公式：设事件 ${A_i}$ 是样本空间 $Ω$ 的一个划分，且 $P(A_i)>0(i=1,2,...,n)$ ，那么：事件B发生的可能性： $\sum_{i = 1}^nP(A_i)P(B|A_i)$
- 贝叶斯公式：全概率公式给我们提供了计算后验概率的途径，即贝叶斯公式，事件B发生是事件 $A_i$ 促成的可能性, $P (A i ∣ B) = P (B) P (B ∣ A i ) P (A i ) = \sum j = 1 n P (A j ) P (B ∣ A j ) P (B ∣ A i ) P (A i ) $
常用统计量
- 方差：衡量随机变量与数学期望之间的偏离程度，统计中的方差则为样本方差，是各个样本数据分别与其平均数之差的平方和的平均数
  $Var(X)=E{[x-E(x)]^2}=E(x^2)-[E(x)]^2$
- 协方差：衡量两个随机变量X和Y直接的总体误差
  $Cov(X,Y)=E{[x-E(x)][y-E(y)]}=E(xy)-E(x)E(y)$

3.3 信息论

熵（Entropy）：信息熵，可以看作是样本集合纯度一种指标，也可以认为是样本集合包含的平均信息量。
- 假定当前样本集合X中第 $i$ 类样本 $𝑥_𝑖$ 所占的比例为 $P(𝑥_𝑖)(i=1,2,...,n)$ ，则 $X$ 的信息熵定义为 $H(X)=-\sum_{i=1}^nP(x_i)log_2P(x_i)$
  H(X)的值越小，则X的纯度越高，蕴含的不确定性越少
联合熵：两个随机变量X和Y联合分布可以形成联合熵，度量二维随机变量XY的不确定性：
$H(X,Y)=-\sum_{i=1}^n\sum_{j=1}^nP(x_i,y_j)log_2P(x_i,y_i)$
条件熵
在随机变量X发生的前提下，随机变量Y发生带来的熵，定义为Y的条件熵，用H(Y|X)表示
$H(Y|X)=\sum_{i=1}^nP(x_i)H(Y|X=x_i)=-\sum_{i=1}^nP(x_i)\sum_{j=1}^nP(y_i|x_i)log_2P(y_i|x_i)=-\sum_{i=1}^n\sum_{j=1}^nP(x_i,y_i)log_2P(y_i|x_i)$
- 条件熵用来衡量在已知随机变量X的条件下，随机变量Y的不确定。
- 熵、联合熵和条件熵之间的关系： $H (Y ∣ X) = H (X, Y) - H (X)$ .
互信息
$I (X; Y) = H (X) + H (Y) - H (X, Y)$
相对熵:相对熵又称KL散度，是描述两个概率分布P和Q差异的一种方法，记做 $D (P ∣ ∣ Q)$ 。在信息论中， $D (P ∣ ∣ Q)$ 表示用概率分布Q来拟合真实分布P时，产生的信息表达的损耗，其中P表示信源的真实分布，Q表示P的近似分布。
- 离散 $D(P||Q)=\sum P(x)log\frac{P(x)}{Q(x)}$
- 连续 $D(P||Q)=\int P(x)log\frac{P(x)}{Q(x)}$
交叉熵
求目标与预测值之间的差距，深度学习中经常用到的一类损失函数度量，比如在对抗生成网络( GAN )中
$D(P||Q)=\sum P(x)log\frac{P(x)}{Q(x)}=\sum P(x)logP(x)-\sum P(x)logQ(x)=-H(P(x))-\sum P(x)logP(x)$
交叉熵： $H(P,Q)=-\sum P(x)logQ(x)$

3.4 最优化估计

最小二乘估计：最小平方法，是一种数学优化方法，最小化误差的平方和寻找数据的最佳函数匹配

回归，方便地求得未知参数，比如曲线拟合、最小化能量或者最大化熵等问题。

参考

https://datawhalechina.github.io/unusual-deep-learning

yxyibb

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
UnusualDeepLearning-task1

UnusualDeepLearning-task1绪论与深度学习概述、数学基础(Datawhale31期组队学习)文章目录UnusualDeepLearning-task1基础点知识点1 人工智能、机器学习与深度学习1.1 人工智能1.2 机器学习2 深度学习的定义和主要应用2.1 定义2.2 应用3 数学基础3.1 矩阵论3.2 概率统计3.4 最优化估计参考基础点人工智能、机器学习与深度学习起源与发展重要的研究机构和著名科学家深度学习的定义和主要应用定义、理论和方法主要应用
复制链接

扫一扫