作者:Benedict Neo
翻译:陈之炎
校对:ZRX
本文约2500字,建议阅读8分钟
本文将探讨上述线性代数概念、视觉解释和代码示例。
你对线性代数有足够的了解吗?
线性代数是所有数据科学和机器学习任务的基石, 它是将理论模型转化为实际解决方案的语言, 它体现了能够利用算法从数据中学习的准则。
xkcd
线性代数可用于:
1. 数据表示:用一种结构化的方式来组织和操作数据,将复杂数据集表示为矩阵
2. 降维:利用PCA线性代数技术减少变量数量,以提高模型效率而不失重要信息
3. 优化:梯度下降,作为机器学习的核心引擎,使用线性代数找到函数的最小值。
4. 特征工程:利用线性变换和矩阵操作从现有数据中创建新特征
5. 相似性度量:将数据嵌入并存储为向量,在当前推荐系统和AI聊天机器人中使用。
6. 其他!
本文将探讨上述线性代数概念、视觉解释和代码示例。 让我们立即开始!
代码→ Deepnote 笔记本
本文(上篇)目录
向量
单位向量
向量操作
向量相加
标量相乘
点积
向量空间
零空间(核)
张成空间
基
线性独立
本文(下篇)目录
矩阵
矩阵作为函数
线性变换
逆矩阵
奇异矩阵
单位矩阵
对角矩阵
正交矩阵
矩阵乘法
迹
决定值
秩
特征向量和特征值
向量
图片由作者提供
这是线性代数的基本构建块。通常有三种方式来考量向量。
第一种是物理学视角:向量是指向空间中的箭头, 由长度和方向定义。平面上的向量是二维的,生活空间中的向量是三维的。
第二种是计算机科学视角:向量是有序的数字列表,列表的长度决定了维度。
第三种是数学家的视角:向量可以是任何东西,只要两个向量可以相加并且可以被数字乘(即标量乘法)。
Deepnote 截图
单位向量
单位向量是幅度为1的向量,通常用它来表示一个向量的方向,而无需考虑其大小。
向量操作
向量相加
两个向量的加法构成一个新的向量,逐分量相加。
标量相乘
标量相乘是一个向量乘以一个标量(一个数字), 结果是一个方向与原向量相同(如果标量是负数则相反)的向量, 其大小由标量的绝对值进行缩放。
点积
它是两个向量的欧几里得大小的乘积和它们之间夹角的余弦, 反映了向量的长度和它们的方向关系。
点积公式
直观地说,可以将点积公式想象成将一个向量的定向增长应用到另一个向量上, 或者“一个向量给另一个向量提供了多少动量/能量?”。结果是使得原向量变得更强(正向,负向或0)
如果两个向量的点积为0,则说明这两个向量是正交的。
可以用一个有趣的类比做进一步解释:
假设红色向量是速度,蓝色向量是助推垫的方向,点积是获得的助推量,助推力数值越大,意味着能获得更强的动力。
使用方程式来表示,|a| 是来速,|b| 是最大助推,获得的助推百分比是 cos(θ), 总体助推为 |a| |b| cos(θ)。
进一步解释
向量空间
向量(或线性)空间是任何可以相互做加法和乘法(称为标量)的向量集合。
满足一系列公理的向量V 称为向量空间。
零空间(核)
零空间是一组向量的集合,当它们与矩阵相乘时,结果为零向量。
将它表示为方程 Ax = 0 的解,其中 A 是给定的矩阵。
假设一个二维空间中有两个向量,可以将矩阵的零空间可视化为一个子空间, 当与矩阵相乘时,向量将折叠到原点(零向量)。
张成空间
给定一对向量v 和 w 的线性组合av + bw构成的所有可能向量的集合,其中 a 和 b 是实数。大多数向量对经过线性组合之后,可以到达二维向量平面上的任意点。
3blue1brown 关于张成空间的视频
当两个向量恰好排成一行时,它被限制在通过原点的单条线上。
张成空间的概念是基的概念的基础。
基
基是一组线性独立的向量,它们组成整个向量空间,向量空间中的每个向量都可以表示为基向量的线性组合。 将它们想象为空间中所有其他向量的构建块。 将单个向量想象为箭头,对于一组向量集,将其想象为点,基向量对可以张成整个二维平面。
线性独立
如果集合中的向量不能用其他向量的线性组合表示(例如,x 和 y 的线性组合将是任何形式的 ax + by,其中 a 和 b 是常数),则一组向量是线性独立的。
资源
Hackers 通道
程序员必学计算线性代数
应用机器学习的线性代数入门
可视化
图形线性代数-一种新的LA方法
线性代数的本质3BluelBrown-惊人的动画,可视化的概念
矢量化
洞察数学
论文/课程/教科书
深度学习所需的矩阵演算
数据分析、信号处理和机器中的矩阵方法 |麻省理工学院开放式课程
线性代数全答对
4页线性代数.Pdf
保持联络!
务必关注 bitgrit 数据科学出版物以保持更新!想和其他数据科学家讨论数据科学和人工智能的最新发展吗?加入我们的discord服务器!关注 Bitgrit 以获取有关研讨会和即将到来的比赛的更新!
作者简介:
本博由 Benedict Neo 撰写 ,bitgrit 数据科学出版物的编辑,40K 关注, Python ∩ 数据科学 ∩ AI
原文标题:
Linear Algebra Concepts Every Data Scientist Should Know
原文链接:
https://medium.com/bitgrit-data-science-publication/linear-algebra-concepts-every-data-scientist-should-know-18b00bd453dd
编辑:黄继彦
译者简介
陈之炎,北京交通大学通信与控制工程专业毕业,获得工学硕士学位,历任长城计算机软件与系统公司工程师,大唐微电子公司工程师,现任北京吾译超群科技有限公司技术支持。目前从事智能化翻译教学系统的运营和维护,在人工智能深度学习和自然语言处理(NLP)方面积累有一定的经验。业余时间喜爱翻译创作,翻译作品主要有:IEC-ISO 7816、伊拉克石油工程项目、新财税主义宣言等等,其中中译英作品“新财税主义宣言”在GLOBAL TIMES正式发表。能够利用业余时间加入到THU 数据派平台的翻译志愿者小组,希望能和大家一起交流分享,共同进步
翻译组招募信息
工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。
你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。
其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。
点击文末“阅读原文”加入数据派团队~
转载须知
如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。
发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。
点击“阅读原文”拥抱组织