篇章目录
背景
奇异值分解(SVD),全称:Singular Value Decomposition,是一种提取信息的强大工具,它不仅提供了一种非常便捷的矩阵分解方式,能够发现数据中难以发觉的潜在模式,还能去除噪声和冗余信息,以此达到了优化数据、提高结果的目的。再者,它不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域,提高对数据利用性。也是很多机器学习算法的基石。废话少谈,让我们赶紧进入原理叙述吧!
一、SVD用途概况
优缺点分析
- 可以简化复杂数据,降低建模实现的时间复杂度
- 提高复杂算法的效率,优化最终效果
- 数据转换或许难以理解
- 不利于数据类型的转换
主要应用领域
- 隐性语义分析 (Latent Semantic Analysis, LSA) 或隐性语义索引 (Latent Semantic Indexing, LSI)
- 矩阵形式数据(对图像数据)的压缩
- 推荐系统:较为先进的推荐系统先利用SVD从数据中构建一个主题空间,然后再在该空间下计算相似度,以此提高推荐的效果
二、预备知识
1.线性代数、概率论与数理统计常用分布
1.1、特征值与特征向量
问题引入:线性方程 是稳定状态的问题,特征值在动态问题中有着巨大的重要性。 的解随着时间增长、衰减或者震荡,是不能通过消元来求解的。
概念:几乎所有的向量在乘以矩阵后都会改变方向,某些特殊的向量 和 位于同一个方向,它们称之为特征向量。固有式子:。( 即为特征值)
1.2、幺正矩阵(酉矩阵)
概念(选自百科):如果一个n阶方阵,它的列向量构成一组标准正交基,那么这个矩阵就是幺正矩阵,又称酉矩阵。
性质:① 矩阵U为酉矩阵的充要条件是它的共轭转置矩阵等于其逆矩阵,即
② 当A为酉矩阵时,伴随矩阵等于其共轭转置矩阵
③ 酉矩阵的行列式的绝对值为1
④ , 其中V为幺正矩阵,Σ 是主对角线上元素绝对值为1的对角阵
1.3、概率论与数理统计常用分布
常用离散分布
二项分布:记X为n重伯努利试验成功事件(记为A事件)的次数,。则称X服从二项分布,记符号 。公式如下:
泊松分布:记X为服从参数为泊松分布,参数λ是单位时间(或单位面积)内随机事件的平均发生次数,适合于描述单位时间内随机事件发生的次数。记符号 。公式如下:
常用连续分布
正态分布:全名Normal Distribution。当在大量随机变量上重复很多次实验时,它们的分布总和将非常接近正态分布。由于人的身高是一个随机变量,并且基于其他随机变量,例如一个人消耗的营养量,他们所处的环境,他们的遗传等等,这些变量的分布总和最终是非常接近正态的,即中心极限定理。故此,正态分布是连续性随机变量函数。记符号 。
随机变量x的密度函数: