【机器学习实战-python3】利用SVD简化数据

最新推荐文章于 2024-04-28 00:25:48 发布

修行的猫_zq

最新推荐文章于 2024-04-28 00:25:48 发布

阅读量5.1k

点赞数 6

分类专栏：机器学习文章标签：机器学习数据应用

本文链接：https://blog.csdn.net/sinat_17196995/article/details/71927552

版权

本篇的数据和代码参见：https://github.com/stonycat/ML-in-Action
一、开篇：简述SVD应用
利用SVD实现,我们能够用小得多的数据集来表示原始数据集。这样做,实际上是去除了噪声和冗余信息。简而言之，SVD是一种从大量数据中提取主要关键数据的方法。

下面介绍几种应用场景：
1、隐性语义索引
最早的SVD应用之一就是信息检索。我们称利用SVD的方法为隐性语义索引(LatentSemantic Indexing,LSI)或隐性语义分析(Latent Semantic Analysis,LSA)。在LSI中,一个矩阵是由文档和词语组成的。应用SVD时，构建的SVD奇异值代表了文章的主题或者主要概念。
当我们查找一个词时,其同义词所在的文档可能并不会匹配上。如果我们从上千篇相似的文档中抽取出概念,那么同义词就会映射为同一概念。

2、推荐系统
简单版本的推荐系统能够计算项或者人之间的相似度。更先进的方法则先利用SVD从数据中构建一个主题空间,然后再在该空间下计算其相似度。

SVD是矩阵分解的一种类型,而矩阵分解是将数据矩阵分解为多个独立部分的过程。

二、矩阵分解
很多情况下,数据中的一小段携带了数据集中的大部分信息,其他信息则要么是噪声,要么就是毫不相关的信息。
在线性代数中还有很多矩阵分解技术。矩阵分解可以将原始矩阵表示成新的易于处理的形式,这种新形式是两个或多个矩阵的乘积。
不同的矩阵分解技术具有不同的性质,其中有些更适合于某个应用,有些则更适合于其他应用。最常见的一种矩阵分解技术就是SVD。公式如下：

D a t a m \times n = U m \times m \cdot Σ m \times n \cdot V T n \times n

$Data_{m\times n}=U_{m\times m}\cdot Σ_{m\times n} \cdot V_{n\times n}^{T}$
上述分解中会构建出一个矩阵 Σ ,该矩阵只有对角元素,其他元素均为0。另一个惯例就是,Σ 的对角元素是从大到小排列的。这些对角元素称为 奇异值(Singular Value),它们对应了原始数据集矩阵 Data 的奇异值。奇异值和特征值是有关系的。这里的奇异值就是矩阵

Data⋅Data

最低0.47元/天解锁文章

修行的猫_zq

关注

6
点赞
踩
13

收藏

觉得还不错? 一键收藏
5
评论
【机器学习实战-python3】利用SVD简化数据

本篇的数据和代码参见：https://github.com/stonycat/ML-in-Action 一、开篇：简述SVD应用利用SVD实现,我们能够用小得多的数据集来表示原始数据集。这样做,实际上是去除了噪声和冗余信息。简而言之，SVD是一种从大量数据中提取主要关键数据的方法。下面介绍几种应用场景： 1、隐性语义索引最早的SVD应用之一就是信息检索。我们称利用SVD的方法为隐性语义索
复制链接

扫一扫