很多人学完线性代数、矩阵论两门课程后,完全不知道自己学了些什么,也不知道学这两门课程有什么用,心中满是疑惑。首先线性代数和矩阵论属于代数学范畴,既然如此,让我们先回忆一下从小学到高中是如何学习代数的。以实数为例,先了解什么是实数,然后学习实数的基本运算,接下来将多个实数打包在一起构成集合并研究不同集合的性质和变换。现在将实数换成向量,按照类似的步骤走一遍这个流程,我们将得到:“先了解什么是向量,然后学习向量的基本运算,接下来将多个向量组合在一起构成矩阵并研究不同矩阵的性质和变换。” 不知你发现了没有,是不是相似的“配方”、熟悉的“味道”?其实,你可以将向量看作一种特殊的数据类型,只不过是比实数更为复杂的数据类型,那么从这个角度看,研究向量和研究实数的过程就具有相似性。简单来说,学习线性代数和矩阵论的主要目的之一就是为了研究向量和矩阵的基本概念、运算方法、性质、变换等内容。此外,引入向量和矩阵的另外一个现实的需求是为了快速地求解线性方程组。
为什么AI离不开线性代数和矩阵论? 我们可以用一些具体的例子来说明。特征是某一物体所具有的属性值集合。例如,可以用姓名、学号、年龄、籍贯、性别、专业、身高、身份证号等属性来描述某一位具体的学生。这些属性的值所组成的向量则被称为该学生对应的特征向量。这样一个学生实体便与一个特征向量一一对应。即,知道这个学生就知道其对应的特征向量;反过来,知道一个特征向量便知道其对应的学生。有时,也会用特征向量所组成的矩阵来描述实体集合,此时该矩阵被称为特征矩阵。引入特征向量或特征矩阵的目的是为了将客观物理世界中的实体进行数字化,以方便后续的数学建模和分析。例如,人脸识别系统的第一步就是先对人脸图像分别做特征提取,从而将一张张人脸图像转换为一个个对应的特征向量,以便后续训练相应的人脸识别模型。采用矩阵进行分析计算的另外一大优势是可以在编程时避免使用循环,从而使程序更加简洁,通常情形下还可以节约程序运行的时间成本。例如要对100张人脸照片进行识别,可以利用训练好的人脸识别模型分别对这100张照片依次做识别,编程时需要写一个循环进行100次重复操作。如果将这100张人脸照片对应的特征向量拼合为一个矩阵,就可以利用人脸识别模型对这个矩阵进行处理,一次即可对100张人脸照片进行识别,避免了编程时使用循环来处理,同时也减少了程序运行的时间。由上述实例很容易得出:如果将一个数据样本看作一个向量,一个数据集包含多个样本,则一个数据集可以由矩阵来表示;对于数据集的训练和测试则等价于对矩阵进行运算。由此可见,线性代数和矩阵论在AI理论中的地位是多么重要。
线性代数和矩阵论的知识繁多,那么学习AI需要学习线性代数和矩阵论中的哪些知识呢?学习AI必须知道的线性代数和矩阵论知识如图 3-7所示。首先,必须理解向量和矩阵的基本概念,知道如何用数学符号表示向量和矩阵;接下来需要了解矩阵的基本运算,包括矩阵加减法、数与矩阵相乘、矩阵与矩阵相乘、矩阵的转置、方阵的行列式、共轭矩阵、逆矩阵等。矩阵的基本变换则需要掌握行交换、列交换、转置、分块、对称等基本变换。会将线性方程组的求解转换为矩阵变换问题,理解矩阵的秩与线性方程组解的关系。理解维数、基、坐标、线性空间、欧氏空间、黎曼空间、解空间、范数等基本概念。特别是范数的基本概念和计算方法,它是机器学习中的一个核心概念。在构建机器学习模型时,为了防止模型过拟合,往往会在损失函数中加入一个正则项,而这个正则项通常用范数来表示。了解常见的特殊矩阵,例如单位矩阵、对称矩阵、正交矩阵等。掌握导出Jacobian矩阵和Hessian矩阵的方法,了解其应用。Jacobian矩阵的一个核心应用是:已知两个随机变量之间的函数关系,且已知其中一个变量的统计分布模型,则可以利用Jacobian矩阵导出另外一个随机变量的统计分布模型。这意味着Jacobian矩阵是连接两个已知关系的随机变量之间的桥梁。Hessian矩阵的一个常见应用是:将一个多元函数对一个向量进行微分时则需要用到Hessian矩阵,这一方法在最优化理论中经常用到。掌握求矩阵特征值及其特征向量的基本方法,深刻理解特征值和特征向量之间的关系。特征值与特征向量关系的一个最典型的应用是用来做主成分分析,其核心思想是求解样本的协方差矩阵的单位特征向量及其对应的特征值,然后比较特征值的大小来确定样本的主成分,即特征值越大对应的成分越重要。熟练掌握矩阵分解的基本方法并理解其应用。常见的矩阵分解的方法包括:三角分解、正交分解、满秩分解、奇异值分解等。矩阵分解的一些典型应用包括利用正交分解产生正交向量、利用奇异值分解实现数据降维等。理解二次型矩阵以及正定、负定、半正定、不定矩阵的基本概念,掌握其判定方法。在深度学习没有横空出世的时候,核学习方法在机器学习江湖中独步天下。核学习方法的一个基本概念就是核函数,核函数的构造就用到了半正定矩阵判定的相关理论。了解向量、矩阵的正交与投影方法。掌握张量的基本概念与计算。张量是深度学习中的一个核心概念,必须好好掌握。
图 3-7 学习AI必须知道的线性代数和矩阵论知识
关于人工智能中的线性代数与矩阵论学习秘诀的更多介绍,可以购买《人工智能怎么学》进一步阅读。
图书购买方式
京东:https://item.jd.com/13395339.html
当当:http://product.dangdang.com/29469230.html
天猫:https://detail.tmall.com/item_o.htm?id=687374654836
为了让图书惠及更多的读者,为更多想学习人工智能的人提供帮助,经过向出版社申请,对图书《人工智能怎么学》的部分内容进行改编和连载。图书《人工智能怎么学》的全部内容包含了初级入门、中阶提高以及高级进阶三个级别的内容。连载的内容主要是初级入门级别,适合想对人工智能进行快速和高效入门的读者,对于已有一定的人工智能学习基础,希望进一步进阶或提高的读者,则需要购买图书《人工智能怎么学》,学习中阶提高以及高级进阶的内容。此外,对于学习人工智能感兴趣的读者,也可以加入知识星球《人工智能怎么学》,知识星球是一个构建学习社群的平台,通过加入《人工智能怎么学》的社群,你将获得更多的学习资料和课程信息。
与作者互动和了解更多信息
想跟作者一起学习人工智能和互动,你可以加入如下社群:
知识星球:https://t.zsxq.com/0aLkVg0os
微信群与QQ群:正在建设中
想了解更多关于人工智能学习及实践的内容,请关注如下媒体:
官方网站:https://bigdatamininglab.github.io
官方微信公众号:正在建设中
CSDN:https://blog.csdn.net/audyxiao001
参考文献
张文俊. 数学欣赏[M]. 北京: 科学出版社, 2011.
李文林. 数学史概论 第4版[M]. 北京: 高等教育出版社, 2021.
方开泰. 漫漫修远攻算路:方开泰自述[M]. 长沙: 湖南教育出版社, 2016.
徐品方. 数学王子——高斯[M]. 哈尔滨: 哈尔滨工业大学出版社, 2018.
同济大学数学系. 高等数学(第7版)[M]. 北京: 高等教育出版社, 2014.
李忠,周建莹. 高等数学(第2版)[M]. 北京: 北京大学出版社, 2009.
Joel Hass et al.Thomas’ Calculus: Early Transcendentals (Fourteenth Edition)[M]. Pearson, 2018.
Ron Larson, and Bruce Edwards. Calculus (Eleventh Edition) [M].Cengage Learning, 2018.
华东师范大学数学科学学院. 数学分析(第5版)[M]. 北京: 高等教育出版社, 2019.
常庚哲, 史济怀. 数学分析教程(第3版)[M]. 合肥: 中国科学技术大学出版社, 2012.
Walter Rudin. Principles of Mathematical Analysis (ThirdEdition) [M]. McGraw-Hill Education, 1976.
Vladimir A. Zoric. Mathematical Analysis (Second Edition) [M].Springer, 2016.
Elias M. Stein, and RamiShakarchi. Real Analysis: Measure Theory, Integration, and Hilbert Spaces [M]. Princeton University Press,2004.
Elias M. Stein, and Rami Shakarchi. Complex Analysis [M]. Princeton University Press,2005.
Elias M. Stein, and Rami Shakarchi. Fourier Analysis: AnIntroduction [M]. PrincetonUniversity Press,2003.
Elias M. Stein, and Rami Shakarchi. Functional Analysis:Introduction to Further Topics in Analysis[M]. Princeton University Press, 2011.
丘维声. 简明线性代数[M]. 北京: 北京大学出版社, 2002.
居于马. 线性代数(第2版)[M]. 北京: 清华大学出版社, 2002.
李尚志. 线性代数[M]. 北京: 高等教育出版社, 2002.
李炯生. 线性代数(第2版)[M]. 合肥: 中国科学技术大学出版社, 2010.
龚昇. 线性代数(第2版)[M]. 合肥: 中国科学技术大学出版社, 2005.
任广千, 谢聪, 胡翠芳. 线性代数的几何意义[M]. 西安: 西安电子科技大学出版社, 2015.
Kuldeep Singh. Linear Algebra: Step by Step [M]. Oxford UniversityPress,2014.
Gilbert Strang. Introduction to Linear Algebra (Fifth Edition)[M]. Wellesley-Cambridge Press, 2016.
David C. Lay et al. Linear Algebra and Its Application (FifthEdition) [M]. Pearson,, 2016.
Sheldon Axler. Linear Algebra Done Right (Third Edition) [M].Springer, 2015.
Gerald Farin, and Dianne Hansford. Practical Linear Algebra:A Geometry Toobox (Third Edition) [M]. CRC Press, 2013.
Gilbert Strang. Linear Algebra and Learning from Data [M].Wellesley-Cambridge Press, 2019.
徐仲. 矩阵论简明教程(第3版)[M]. 北京: 科学出版社, 2014.
张贤达. 矩阵分析与应用(第2版)[M]. 北京: 清华大学出版社, 2013.
Gene H. Golub, and Charles F. Van Loan. Matrix Computation (FourthEdition) [M]. The Johns Hopkins University Press, 2013.
Roger A. Horn, and Charles R. Johnson. Matrix Analysis (SecondEdition) [M]. Cambridge University Press, 2013.
盛骤, 谢式千, 潘承毅. 概率论与数理统计(第4版)[M]. 北京: 高等教育出版社, 2008.
陈希孺. 概率论与数理统计[M]. 合肥: 中国科学技术大学出版社, 2017.
Jay L. Devore. Probability and Statistics for Engineering andthe Sciences (Ninth Edition) [M]. Cengage Learning, 2016.
Morris H. DeGroot, and Mark J. Schervish . Probabilityand Statistics (Forth Edition) [M]. Pearson, 2012.
高惠璇. 应用多元统计分析[M]. 北京大学出版社, 2004.
王静龙. 多元统计分析[M]. 科学出版社, 2008.
T. W. Anderson. An Introduction to Multivariate StatisticalAnalysis (Third Edition) [M]. John Wiley & Sons, 2003.
Richard A. Johnson, and Dean W. Wichern . Applied Multivariate Statistical Analysis (SixthEdition) [M]. Pearson, 2007.
程士宏. 测度论与概率论基础[M]. 北京: 北京大学出版社, 2004.
严加安. 测度论讲义(第2版)[M]. 北京: 科学出版社, 2004.
Krishna B. Athreya, and Soumendra N. Lahiri. Measure Theoryand Probability Theory (Third Edition) [M]. Springer, 2006.
Paul R. Halmos. Measure Theory [M]. Springer Science+Business Media, 1974.
胡迪鹤. 高等概率论及其应用[M]. 北京: 高等教育出版社, 2008.
郑忠国. 高等统计学[M]. 北京: 北京大学出版社, 2012.
Craig A. Mertler, and Rachel Vannatta Reinhart. Advanced andMultivariate Statistical Methods: Practical Application and Interpretation (SixthEdition) [M]. Routledge, 2017.
Eugene Demidenko. Advanced Statistics with Applications in R [M].John Wiley & Sons, 2020.
何书元. 随机过程[M]. 北京: 北京大学出版社, 2008.
张波, 张景肖. 应用随机过程[M]. 北京: 清华大学出版社, 2004.
Sheldon M. Ross. Introduction to Probability Models (TwelfthEdition) [M]. Academic Press, 2019.
Robert G. Gallager. Stochastic Processes: Theory forApplications [M]. John Wiley & Sons, 2013.
David Forsyth. Probability and Statistics for ComputerScience (Twelfth Edition) [M]. Springer, 2018.
Luc Devroye et al. A Probabilistic Theory of PatternRecognition [M]. Springer, 1997.
《运筹学》教材编写组. 运筹学(第4版)[M]. 北京: 清华大学出版社, 2013.
胡运权, 郭耀煌. 运筹学教程(第5版)[M]. 北京: 清华大学出版社, 2018.
Frederick S. Hillier, and Gerald J. Lieberman. Introductionto Operation Research (Tenth Edition) [M]. McGraw-Hill Education, 2015.
Hamdy A. Taha. Operation Research:An Introduction (TenthEdition) [M]. Pearson, 2017.
陈宝林. 最优化理论与算法(第2版)[M]. 北京: 清华大学出版社, 2018.
高立. 数值最优化方法[M]. 北京: 北京大学出版社, 2014.
Edwin K. P. Chong, and Stanislaw H. Zak. An Introduction toOptimization (Fourth Edition) [M]. John Wiley & Sons, 2013.
Jorge Nocedal, and Stephen J. Wright. Numerical Optimization(Second Edition) [M]. Springer, 2006.
Stephen Boyd, and Lieven Vandenberghe. Convex Optimization[M]. Cambridge University Press, 2004.
Yuni Nesterov. Lectures on Convex Optimization (SecondEdition) [M]. Springer, 2018.
李航. 统计学习方法(第2版)[M]. 北京: 清华大学出版社, 2019.
周志华. 机器学习[M]. 北京: 清华大学出版社, 2016.
Yuni Nesterov. The Elements of Statistical Learning: DataMining, Inference, and Prediction (Second Edition) [M]. Springer, 2009.
Tom M. Mitchell. Machine Learning [M]. McGraw-Hill Education,1997.
Christopher Bishop. Pattern Recognition and Machine Learning[M]. Springer, 2006.
Mehryar Mohri et al. Foundation of Machine Learning (SecondEdition) [M]. The MIT Press, 2018.
Kevin P. Murphy. Probabilistic Machine Learning: AnIntroduction [M]. The MIT Press, 2022.
Shai Shalev-Shwartz, and Shai Ben-David. UnderstandingMachine Learning: From Theory to Algorithms [M]. Cambridge University Press,2014.
Ian Goodfellow et al.Deep Learning [M]. The MIT Press, 2016.
杨强, 张宇, 戴文渊, 潘嘉林 . 迁移学习[M]. 北京: 机械工业出版社, 2020.
杨强, 刘洋,程勇 等. 联邦学习[M]. 北京: 中国工信出版集团, 电子工业出版社, 2020.
周志华. 集成学习:基础与算法(第2版)[M]. 李楠, 译. 北京: 清华大学出版社, 2019.
Richard S. Sutton, and Andrew G. Barto. ReinforcementLearning: An Introduction [M]. The MIT Press, 2018.
Amparo Albalate, and Wolfgang Minker. Semi-Supervised andUnsupervised Machine Learning [M]. ISTE, and John Wiley & Sons, 2011.
Christoph Molnar. Interpretable Machine Learning: A Guide forMaking Black Box Models Expainable [M]. lulu.com, 2020.
Judea Pearl. Causality: Models, Reasoning, and Inference(Second Edition) [M]. Cambridge University Press, 2009.
注:本文版权归作者个人所有,如需转载请联系作者,未经授权不得转载。