「机器学习速成」嵌套：高维度数据映射到低维度空间

最新推荐文章于 2023-12-31 01:10:44 发布

喜欢打酱油的老鸟

最新推荐文章于 2023-12-31 01:10:44 发布

阅读量3.3k

点赞数 2

文章标签：嵌套：高维度数据映射到低维度空间

人工智能专栏收录该内容

4206 篇文章

订阅专栏

本文探讨了嵌套技术在高维度数据映射至低维度空间的应用，特别聚焦于电影推荐系统的协同过滤方法。通过构建电影间的相似度，实现个性化推荐。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

https://www.toutiao.com/a6707188638792286727/

大家好，今天我们学习【机器学习速成】之 嵌套：高维度数据映射到低维度空间。

嵌套将高维度数据映射到低维度空间，可以将语义上相似的不同输入映射到嵌套空间里的邻近处，以此来捕获输入的语义。

我们 马上学三点 ，

协同过滤电影推荐
输入表示法
深度网络中的嵌套层

大家可以点击下面的“ 了解更多”，或搜索“ 马上学123 ”，在线观看PPT讲义。

协同过滤推荐

推荐系统最基本的方面是嵌套，这也是我们今天要讨论的内容。

协同过滤是一项可以预测用户兴趣的任务, 这里以电影推荐的任务为例，假设我有一百万部电影和五十万用户，而且我知道每个用户观看过的电影。

任务很简单：我要向用户推荐电影。要解决这个问题，我们需要使用某种方法来确定哪些电影是相似的。我们可以通过将电影嵌套到低维空间 （使得相似的电影彼此邻近）来实现这个目标。

如果您观看了3部电影，我就可以推荐和这3部电影相邻的给你。

按相似度整理电影（一维）

首先，我们先试着沿着一维嵌套这些电影。为了更直观地了解嵌套过程，请准备一张纸，试着在一维数轴上排列以下电影，让越相关的电影靠得越近：

「机器学习速成」嵌套：高维度数据映射到低维度空间

按相似度整理电影（一维）

比如说，我可能会在左侧放入动画片，在右侧放入更加适合成人的电影，这种嵌套有助于捕获电影的适宜观赏年龄段。

我可以向儿童推荐动画片，这个效果不错，但有些动画片不适合儿童观看，还有一些电影很少有人看，我们应该少推荐。但只有一个维度，我很难做出其它角度的判断。

按相似度整理影片（二维）

如果我们再添加一个维度，有两个维度的话会怎样呢？

「机器学习速成」嵌套：高维度数据映射到低维度空间

按相似度整理影片（二维）

X轴的左侧是比较适合儿童的电影，右侧则是比较适合成人的电影， Y轴的顶部是比较卖座的大片，底部则是偏艺术类的电影。当然，这只是电影诸多重要特征中的两个。

利用这种二维嵌套，我们可以定义电影之间的距离，从而使在适宜儿童或成人的程度上相近的电影以及属于大片或艺术电影的程度上相近的电影位于相近的位置，您可以看到位置相邻的电影比较类似，而这正是我们想要实现的目标。

我们所做的是将这些电影映射到一个嵌套空间，其中的每个字词都由一组二维坐标来表示。例如，在这个空间中，《怪物史莱克》映射到了 (-1.0, 0.95)，而《蓝》则映射到了 (0.65, -0.2)。此处的每部电影都可以仅由两个值组成的集表示，而且我们现在可通过这些点之间的距离 了解电影之间的相似性。

d 维嵌套

尽管我只绘制两个维度，但实际上，您需要在D维空间中建模，二维不足以捕获一切内容。

通常情况下，在学习 d 维嵌套时，每部影片都变成一个 d 维点，由d个数字表示，其中维度 d 中的值表示这部影片符合相应方面的程度。

实际上可以通过数据学习这些嵌套，我们可以使用深度神经网络进行嵌套，嵌套层只是隐藏层，每个维度一个单元。

输入表示法

现在，我们看看如何将这种方法运用到神经网络中。

「机器学习速成」嵌套：高维度数据映射到低维度空间

输入表示法

如图所示，我用一行表示一个用户，一列表示一部电影，并在这个简单的示例中打一个勾表示用户看过这部电影。每个样本其实只是此矩阵中的一行，我们来重点关注一下最后一行。

如果有五十万部电影，我可不想列出您没有看过的所有电影，所以，只是记下您看过的电影会更高效。

为实现这一目标，我们将使用以下输入表示法，为此，我们需要分两个阶段进行:

第一个阶段是预处理阶段: 在这个阶段，我们将构建名为字典的数据库，字典就是从各个特征到相应整数的映射。本例中，电影按照所在列的顺序映射相应整数，我会将第0列命名为第0个电影，将第1列命名为第1个电影，以此类推，这是我们在预处理阶段执行的一项一次性操作。
现在，我可以高效地将那个最后一行样本仅表示为用户看过的3个电影，而不用去管所有其他电影。实际上这只是3个整数: 1、3、999999, 因为这些数字表示用户看过的3个电影的索引。