17天学习之深度学习task01绪论与数学基础

绪论和深度学习概述

机器学习分类

名称老师学习方式评价标准
有监督学习有老师跟着老师学老师判断
无监督学习无老师自学特定标准评价
强化学习无老师自学自己评价

数学基础

矩阵论

矩阵的基本知识

矩阵 :一个二维数组,常用大写字母表示,比如矩阵A;
张量:0阶张量是标量;1阶张量是矢量;2阶张量是矩阵;3阶及以上叫张量;
矩阵的秩:rank(A)
矩阵的逆:① 是方阵②满秩;则是可逆矩阵;
矩阵的广义逆矩阵:①不是方阵的时候② 是奇异矩阵的时候。若ABA = A,则B是A的广义逆矩阵

矩阵分解

矩阵的特征分解 A n × n A {n\times n} An×n具有n个不同的特征值,那么矩阵A可分解为 A = U ∑ U T A = U\sum U^T A=UUT;其中: ∑ \sum = [ λ 1 0 ⋯ 0 0 λ 2 ⋯ 0 0 0 ⋱ ⋮ 0 0 ⋯ λ n ] \begin{bmatrix} \lambda_1&0&\cdots& 0\\ 0&\lambda_2&\cdots&0\\ 0&0&\ddots&\vdots\\ 0&0&\cdots&\lambda_n \end{bmatrix} λ10000λ20000λn,U = [ u 1 , u 2 , ⋯   , u n ] [u_1,u_2,\cdots,u_n] [u1,u2,,un],
在这里插入图片描述

概率统计

随机变量

  • 离散型随机变量
  • 连续型随机变量

常见的概率分布

伯努利分布(0—1分布)
  • 实验只进行一次
  • 实验结果只有两种可能
二项分布
  • n次重复的伯努利
  • 每次之间相互独立
均匀分布
高斯分布(正态分布)
  • 由均值和标准差决定
指数分布
  • 无记忆性
  • p ( x ) = λ ∗ e − λ x p(x) = \lambda*e^{-\lambda x} p(x)=λeλx

多变量概率分布

条件概率 P(X|Y)
联合概率 P(X,Y)

P(Y|X) = P ( Y , X ) P ( X ) \displaystyle\frac{P(Y,X)}{P(X)} P(X)P(Y,X) ,其中P(X)>0

先验概率
后验概率
全概率公式

在这里插入图片描述

贝叶斯公式

在这里插入图片描述

常用的统计量

方差

var(x) = E( X 2 X^2 X2) - E ( X ) 2 {E(X)}^2 E(X)2

协方差

Cov(X,Y) = E(XY) - E(X)E(Y)

信息论

H ( X ) = − ∑ i = 1 n P ( x i ) log ⁡ 2 P ( x i ) H(X) = -\sum_{i = 1}^nP(x_i)\log_2{P(x_i)} H(X)=i=1nP(xi)log2P(xi),其中X是样本集合, x i x_i xi是某个样本, P ( x i ) P(x_i) P(xi) x i x_i xi样本在总样本中占的比重

  • H(X)的值越小,X的纯度越高,蕴含的不确定性越少
  • 比如均匀分布的熵比非均匀分布大一些

联合熵

  • 两个随机变量X和Y的联合分布可以形成联合熵,度量XY的不确定性;
    H ( X , Y ) = − ∑ i = 1 n ∑ j = 1 n P ( x i , y i ) log ⁡ 2 P ( x i , y i ) H(X,Y) = -\sum_{i=1}^n \sum_{j=1}^nP(x_i,y_i)\log_2{P(x_i,y_i)} H(X,Y)=i=1nj=1nP(xi,yi)log2P(xi,yi)

条件熵

  • 在随机变量X发生的前提下,随机变量Y发生带来的熵,定义为Y的条件熵,用H(Y|X)表示,也就是在已经X的情况下,Y的不确定性

H ( Y ∣ X ) = − ∑ i = 1 n ∑ j = 1 n P ( x i , y i ) log ⁡ 2 P ( y i ∣ x i ) H(Y|X) = -\sum_{i=1}^n \sum_{j=1}^nP(x_i,y_i)\log_2{P(y_i|x_i)} H(YX)=i=1nj=1nP(xi,yi)log2P(yixi)

三个熵之间的关系

  • H(Y|X) = H(X,Y) - H(X)

互信息

I(X,Y) = H(X) +H(Y) -H(X,Y)
在这里插入图片描述

相对熵

  • 描述两个概率分布P、Q差异的一种方法;
  • D(P||Q) 表示用概率分布Q来拟合真实分布P,产生的信息损耗;
  • 离散形式: D ( P ∣ ∣ Q ) = ∑ P ( x ) log ⁡ P ( x ) Q ( x ) D(P||Q) = \sum P(x) \log{\displaystyle\frac{P(x)}{Q(x)}} D(PQ)=P(x)logQ(x)P(x)
  • 连续形式: D ( P ∣ ∣ Q ) = ∫ P ( x ) log ⁡ P ( x ) Q ( x ) D(P||Q) = \int P(x) \log{\displaystyle\frac{P(x)}{Q(x)}} D(PQ)=P(x)logQ(x)P(x)

交叉熵

D ( P ∣ ∣ Q ) = ∑ P ( x ) log ⁡ P ( x ) Q ( x ) = ∑ P ( x ) log ⁡ P ( x ) − ∑ P ( x ) log ⁡ Q ( x ) = − H ( P ( x ) ) + ( − ∑ P ( x ) log ⁡ Q ( x ) ) D(P||Q) = \sum P(x) \log{\displaystyle\frac{P(x)}{Q(x)}}= \sum P(x)\log P(x) -\sum P(x)\log Q(x) = -H(P(x)) + (-\sum P(x)\log Q(x)) D(PQ)=P(x)logQ(x)P(x)=P(x)logP(x)P(x)logQ(x)=H(P(x))+(P(x)logQ(x))

  • 其中, − ∑ P ( x ) log ⁡ Q ( x ) -\sum P(x)\log Q(x) P(x)logQ(x)就叫做交叉熵,记作H(P,Q)
  • 由于相对熵 = 交叉熵 + 常数(因为P分布是确定的,他的熵也是确定的常数)
  • 经常作为损失函数去评估

最优化估计

最小二乘法

  • 最小二乘法就是寻找最小的 ∑ ( 观 测 值 − 理 论 值 ) 2 \sum (观测值-理论值)^2 ()2(残差平方和)
  • 最小二乘法是直接求导找出全局最优;梯度下降是逐次迭代找到局部最优
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值