深度学习 DEEP LEARNING 1-2章

本文介绍了深度学习经典教材《Deep Learning》的前两章内容,包括矩阵运算、特殊矩阵、特征分解、SVD奇异值分解及其应用。文章详细探讨了矩阵的对角化、逆矩阵、PCA主成分分析等相关概念,强调了SVD在数据压缩和降维中的重要性。
摘要由CSDN通过智能技术生成

深度学习 DEEP LEARNING 1-2章

1.神书简介

《deep Learning》由全球知名的三位专家Ian Goodfellow、Yoshua Bengio 和Aaron Courville撰写,其被奉为AI界圣经。因其封面为AI生成的鲜花图像,故其“花书”之名广为传播。

其大致可以分为三大部分:各种基础(属地基型,学此部分的同时可佐以线性代数、李航统计学方法、吴恩达机器学习、机器学习实战、西瓜书、林轩田机器学习等书籍。。)、深度神经网络核心知识(本书灵魂所在,实践才是硬道理)、前沿发展(金字塔尖儿,可以细琢磨一下以便发论文)

重难点内容

  1. 矩阵对角化与svd分解 2. 最小二乘与pca

2.基本概念

线性代数主要研究的是以下几种对象:

  • 标量(scalar):标量就是单一的数字,比如单一的整数,实数,有理数等都是标量。
  • 向量(vector):可以看做是一组标量形成的一维数组,如由n个实数组成的向量:

x = [ x 1 x 2 ⋮ x n ] \boldsymbol{x}=\left[\begin{array}{c}{x_{1}} \\ {x_{2}} \\ {\vdots} \\ {x_{n}}\end{array}\right] x=x1x2xn

  • 矩阵(matrix): 矩阵是二维数组,所以每个元素需要行和列的指标来标记

[ A 1 , 1 A 1 , 2 A 2 , 1 A 2 , 2 ] \left[\begin{array}{ll}{A_{1,1}} & {A_{1,2}} \\ {A_{2,1}} & {A_{2,2}}\end{array}\right] [A1,1A2,1A1,2A2,2]

  • 张量(tensor):张量是多维数组,当它是零维时就是标量,一维时就是矢量,二维时就是矩阵,也可以大于二维。
  • 行列式(determinant):det(A)等于矩阵特征值的乘积,用来衡量矩阵参与矩阵乘法后空间扩大或者缩小了多少。

3.矩阵运算

  • 转置(transpose):矩阵转置可以想成将矩阵按轴线翻转过来,矩阵A的转置常常用 A T A^{T} AT表示 在这里插入图片描述
  • 矩阵乘法(matrix product):假如有两个形状分别为 m x n 的矩阵A和 n x p 的矩阵B,注意A的列数和B的行数要匹配,矩阵乘积C=AB就是将A的每一行与对应的B的每一列相乘求和,并将所得的数存储在C的对应元素中:

C i , j = ∑ k A i , k B k , j C_{i, j}=\sum_{k} A_{i, k} B_{k, j} Ci,j=kAi,kBk,j

由图形表示即是
在这里插入图片描述
矩阵与向量的乘积可以看做是矩阵与矩阵乘积的一种特殊情况。我们常用的n元一次线性方程组也可以表示为矩阵与向量的乘积形式

A x = b A x=b Ax=b

  • 逆矩阵(inverse matrix):首先我们需要定义单位矩阵(Identity Matrix) I n I_{n} In, I n I_{n} In是一个n x n的方形矩阵,并且主对角线均为1,其他元素均为零,单位矩阵与任意向量相乘还得到该向量本身。矩阵A的逆矩阵常用 A − 1 A^{-1} A1表示,其性质是 A − 1 A = I n A^{-1} A=I_{n} A1A=In.即矩阵(方阵)的逆满足如下条件: A − 1 A = A A − 1 = I n A^{-1} A=A A^{-1}=I_{n} A1A=AA1=In

假如一个矩阵存在逆矩阵,那么相应的线性方程组就可以转化为求逆矩阵与向量的矩阵乘积的问题:

A x = b A − 1 A x = A − 1 b I n x = A − 1 b \begin{aligned} A x &=b \\ A^{-1} A x &=A^{-1} b \\ I_{n} x &=A^{-1} b \end{aligned} AxA1AxInx=b=A1b=A1b

  • (trace):迹定义为求主对角线元素的和 Tr ⁡ ( A ) = ∑ i A i , i \operatorname{Tr}(\boldsymbol{A})=\sum_{i} \boldsymbol{A}_{i, i} Tr(A)=iAi,i

  • 范数(norm):范数用来度量向量的大小。比如 L p L^{p} Lpnorm定义为 ∥ x ∥ p = ( ∑ i ∣ x i ∣ p ) 1 p \|\boldsymbol{x}\|_{p}=\left(\sum_{i}\left|x_{i}\right|^{p}\right)^{\frac{1}{p}} xp=(ixip)p1(其中p是实数且p≥1)

常用的有 L 2 L^{2} L2norm,代表了从原点到向量所表示的点的欧几里得空间距离。为了方便计算, 我们也常常用 L 2 L^{2} L2norm的平方,可计算为向量转置与自身的乘积 x T x x^{T} x xTx。机器学习算法中还比较常用的是 L 1 L^{1} L1norm,即

∥ x ∥ 1 = ∑ i ∣ x i ∣ \|x\|_{1}=\sum_{i}\left|x_{i}\right| x1=ixi
L 1 L^{1} L1norm常常用来做机器学习模型的regularization(防止过拟合,以后章节会细讲),因为 机器学习模型中我们常常想减小模型非零变量的数量以防止过拟合,也就是很多变量变为零,而将大部分权重放在某些有意义的变量上,这时候由于 L 2 L^{2} L2在变量较小接近零时跟随的改变较小,会出现很多趋近于零而不为零的变量,而 L 1 L^{1} L1norm由于跟随于每个变量的变动是恒定的,使得零元素和非零但趋近于零的变量仍对该项有显著贡献,在目标是减小这一项的过程中会使很多变量归零(注意是归零而不仅仅是较小接近零),从而更有效的减少过拟合。

  • 实用性质

A(B+C)=AB+AC(分配律)

A(BC)=(AB)C(结合律)

AB≠BA(一般不满足交换律)

(AB)=BA

( A B ) ⊤ = B ⊤ A ⊤ (A B)^{\top}=B^{\top} A^{\top} (AB)=BA(转置)

x ⊤ y = ( x ⊤ y ) ⊤ = y ⊤ x x^{\top} y=\left(x^{\top} y\right)^{\top}=y^{\top} x xy=(xy)=yx(转置) 其中:x,y都是列向量, x ⊤ x^{\top} x是行向量, x T y x^{T} y xTy的结果是一个标量

4.特殊矩阵

  • 对称矩阵(symmetric matrix):对称矩阵的转置等于它自身。 A = A ⊤ A=A^{\top} A=A

  • 对角矩阵(diagonal matrix):除主对角线的元素均为零。

  • 单位向量(unit vector): 单位向量的 L 2 L^{2} L2norm等于1。

  • 正交矩阵(orthogonal matrix): 正交矩阵的转置与它自身的矩阵乘积是单位矩阵: A ⊤ A = A A ⊤ = I A^{\top} A=A A^{\top}=I AA=AA=I

  • 单位矩阵(identity matrix):任意向量或矩阵和单位矩阵相乘,都不会改变,记为I。

    ​ 所有沿主对角线的元素都是1,而所有其他位置的元素都是0。
    在这里插入图片描述

5.特征分解

正如我们可以把正整数表示为更基本的质数的乘积的形式,特征分解(eigendecomposition)也是将矩阵分解为组成它的特征向量(eigenvector)和特征值(eigenvalue)的形式。

特征向量定义如下:如果正方形矩阵A和向量v的乘积可以表示为一个标量 λ \lambda λ 与向量v的乘积,那么v就是A的一个特征向量, λ \lambda λ就是A的一个特征值: A v = λ v A v=\lambda v Av=λv

可以看出,如果v就是A的一个特征向量,那么任意一个标量与v的乘积仍是A的一个特征向量,而且他们的特征值相同,所以通常我们只关心范数为1的特征向量。假设矩阵A是一个m×m的实对称矩阵(即 A = A T A=A^{T} A=AT),那么它可以被分解成如下的形式

A = Q Σ Q T = Q [ λ 1 ⋯ ⋯ ⋯ ⋯ λ 2 ⋯ ⋯ ⋯ ⋯ ⋱ ⋯ ⋯ ⋯ ⋯ λ m ] Q T A=Q \Sigma Q^{T}=Q\left[\begin{array}{cccc}{\lambda_{1}} & {\cdots} & {\cdots} & {\cdots} \\ {\cdots} & {\lambda_{2}} & {\cdots} & {\cdots} \\ {\cdots} & {\cdots} & {\ddots} & {\cdots} \\ {\cdots} & {\cdots} & {\cdots} & {\lambda_{m}}\end{array}\right] Q^{T} A=QΣQT=Qλ1λ2λmQT

其中Q为标准正交阵,即有 Q Q T = I Q Q^{T}=I QQT=I Σ \Sigma Σ为对角矩阵,且上面的矩阵的维度均为mxm。 λ i \lambda_{i} λi称为特征值 q i q_{i} qi是Q(特征矩阵)中的列向量,称为特征向量 A q i = λ i q i , q i T q j = 1 ( i ≠ j ) A q_{i}=\lambda_{i} q_{i}, \quad q_{i}^{T} q_{j}=1(i \neq j) Aqi=λiqi,qiTqj=1(i=j)

我们可以想象矩阵A实际上是将空间在其特征向量的方向上各自拉伸了对应的特征值的尺度。

将矩阵分解为特征值 λ 和特征向量的表示形式。(一般只有方阵才有)

可以看作在二维平面上画出特征向量后,乘上矩阵A表示这个向量被拉伸了 λ 倍,如下图:
在这里插入图片描述
当然,不是所有矩阵都可以做特征分解,比较幸运的是,通常我们可能要解决的只是某类特定形式的矩阵问题,例如实对称矩阵总可以表示成特征分解的形式。

λ > 0:正定矩阵(positive definite)

λ ≥ 0:半正定矩阵(positive semidefinite)

λ < 0:负定矩阵(negative definite)

6.矩阵的对角化

矩阵B(方阵)的对角化 P − 1 A P = B P^{-1} A P=B P1AP=B,其中A为对角矩阵,P为单位正交矩阵(即 P T P = P P T = I P^{T} P=P P^{T}=I PTP=PPT=I => P T = P − 1 P^{T}=P^{-1} PT=P1 所以: B = P T A P B=P^{T} A P B=PTAP)。B首先要是方阵,其次它可对角化

一般的矩阵不一定能对角化,但是对称矩阵一定可以对角化(特别是对称正定矩阵(任何一个向量x $x^{T}Ax>0 ) , 得 到 的 ),得到的 )\lambda_{1}$都是正数)。

P T = ( u 1 , u 2 , ⋯   , u n ) , u i ∈ R n P^{T}=\left(u_{1}, u_{2}, \cdots, u_{n}\right), u_{i} \in \mathbb{R}^{n} PT=(u1,u2,,un),uiRn(其为一个n*n的矩阵,每个ui都为n乘以 1的列向量)

A = ( λ 1 λ 2 ⋱ λ n ) A=\left(\begin{array}{cccc}{\lambda_{1}} & {} & {} & {} \\ {} & {\lambda_{2}} & {} & {} \\ {} & {} & {\ddots} & {} \\ {} & {} & {} & {\lambda_{n}}\end{array}\right) A=λ1λ2λn

B = ( u 1 , u 2 , ⋯   , u n ) ( λ 1 ⋱ λ n ) ( u 1 T ⋮ u n T ) B=\left(u_{1}, u_{2}, \cdots, u_{n}\right)\left(\begin{array}{ccc}{\lambda_{1}} & {} & {} \\ {} & {\ddots} & {} \\ {} & {} & {\lambda_{n}}\end{array}\right)\left(\begin{array}{c}{u_{1}^{T}} \\ {\vdots} \\ {u_{n}^{T}}\end{array}\right) B=(u1,u2,,un)

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Deep Learning在可持续性健康管理(PHM)领域的应用越来越广泛。PHM是一种利用数据分析和故障诊断技术来预测和控制设备和系统健康状况的策略。深度学习是一种基于神经网络的机器学习方法,通过模拟人脑神经元的工作原理,可以提取和学习复杂数据中的模式和特征。 在PHM领域,Deep Learning可以通过处理大量传感器和设备数据来实现准确的故障诊断和预测。它可以自动提取关键特征,并对数据进行高级分析,识别设备故障的原因和模式。与传统的基于规则的方法相比,Deep Learning不需要人工定义特征和规则,能够更好地适应不同设备和系统的特征。 通过Deep Learning,PHM可以实现更可靠的故障预测和诊断,提高设备和系统的可用性和效率。例如,在航空航天领域,Deep Learning可以通过分析飞机传感器数据来准确预测发动机故障,并采取相应的维修措施,避免事故发生。在制造业中,Deep Learning可以识别设备生产过程中的异常,并提供实时的故障诊断和维修建议,减少停机时间和成本。 此外,Deep Learning还可以加强PHM系统的自适应性和智能化。它可以通过持续学习和迭代优化模型,逐渐提高预测和诊断的准确性。与时间推移,系统可以从数据中学习新的模式和趋势,实现更好的预测和故障诊断能力。 总之,Deep Learning在PHM领域具有巨大的潜力,可以提高设备和系统的可靠性,并为实现可持续性健康管理提供更强大的工具和方法。 ### 回答2: Deep learning in PHM(Prognostics and Health Management)是一种将深度学习应用于预测和健康管理领域的方法。PHM是指对工程系统的健康状态进行实时监测、诊断和预测,以实现系统的可靠性、可用性和维修性的优化。使用深度学习算法可以让系统更准确地预测组件故障和系统失效。 在PHM中,深度学习可以利用大量的数据进行模型训练和学习。通过使用多层神经网络和复杂的模型架构,可以探索数据中的潜在模式和特征,并从中提取有用的信息。相比传统的统计方法,深度学习可以处理更庞大和更复杂的数据集,并在数据中学习到更高层次的特征。 深度学习在PHM中有许多应用。例如,在机械系统中,可以使用深度学习算法对传感器数据进行处理,从而实现对系统的状态监测和预测。在航空领域,深度学习可以用于对飞机引擎数据进行分析,以实现对发动机的健康状况进行监测和预测。 值得注意的是,深度学习在PHM中的应用仍处于不断发展和探索阶段。由于深度学习需要大量的数据进行训练,因此数据的收集和处理是深度学习PHM的关键挑战之一。此外,深度学习模型的可解释性也是一个需要考虑的问题,因为在PHM中,准确的故障诊断和预测需要对模型的输出进行解释和理解。 总的来说,Deep learning in PHM是一种有潜力的方法,可以通过利用大数据和神经网络的强大能力来实现对系统健康状态的预测和管理。随着技术的不断发展,深度学习在PHM中的应用将有望为工程系统的维护和优化提供更高效和准确的解决方案。 ### 回答3: 深度学习在预测性维护中的应用(Deep Learning in Prognostics and Health Management,简称PHM)的概念是指利用深度学习算法来分析和利用大量的数据,实现对设备或系统的故障预测和健康状况监测。 深度学习在PHM中的应用可以大大提高设备的可靠性和寿命,减少维护和修复的成本,同时还可以实现更长的设备运行时间和更好的生产效率。 深度学习算法可以通过对大量历史数据的学习,自动发现数据中的模式和特征,进而预测设备的健康状况和剩余寿命。这种基于数据驱动的方法相比于传统的基于物理模型的方法更为灵活和准确。 深度学习在PHM中的应用不仅仅局限于故障预测,还可以用于故障诊断和故障根因分析。通过对设备运行过程中的传感器数据和操作记录进行分析,深度学习算法可以识别出故障的类型和位置,并准确定位到故障的根本原因。 此外,深度学习在PHM中还可以用于优化设备的维护计划。通过对设备历史数据和维护记录的分析,深度学习算法可以推断出最优的维护时间和方式,从而最大程度地延长设备的使用寿命和提高设备的可靠性。 综上所述,深度学习在PHM中的应用具有巨大的潜力和优势。通过对大量数据的学习和分析,深度学习可以实现对设备的故障预测、健康状况监测、故障诊断和维护优化,从而提高设备的可靠性和寿命,降低维护成本,提高生产效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值