大数据分析--MapReduce（二）

索大小迷弟

已于 2024-07-15 21:25:05 修改

阅读量878

点赞数 25

文章标签：数据分析 mapreduce 数据挖掘

于 2024-07-15 21:23:36 首次发布

本文链接：https://blog.csdn.net/qqqqqwerttwtwe/article/details/140448350

版权

参考斯坦福大学的数据挖掘教材《 $\ of \ Massive \ Datasets$ 》,里面介绍了以下一些 $M a pR e d u ce$ 算法的应用

矩阵-向量乘积

假设我们有一个 $n * n$ 的矩阵 $M$ ,它第 $i$ 行第 $j$ 列的元素我们称为 $m_{ij}$ ，同时我们有一个 $n$ 维向量 $v$ 。那么他们的乘积我们可以记作 $X$ ，其中 $x_i=\sum_{j=1}^nm_{ij}v_j$ 。当 $n$ 比较小时，我们并不会用到 $M a pR e d u ce$ ，当矩阵的维度大到机器的主存都放不下的时候，我们就需要 $M a pR e d u ce$ 出手相助了。

Map Tasks

我们假设主存能够放下矩阵的一行和被乘向量 $v$ （其实这是理所当然的，还没听说过哪一个数据的维度让32GB的主存都放不下），那么，我们的map就可以向reduce机器输出 $i, m_{ij}v_j)$ 的键值对（根据前面 $x_i=\sum_{j=1}^nm_{ij}v_j$ 设计）

Reduce Tasks

我们根据键值 $i$ 把所有 $m_{ij}v_j$ 进行求和，输出 $i, x_i)$ 即可。

万一…

万一真的有数据让主存存下矩阵一行后，无法存下完整的向量 $v$ 该怎么办呢?这时候，我们就可以把矩阵和向量拆分成更小的块，然后设计编号，再求和就行了。具体细节就不展开了。

关系代数

学过数据库的小伙伴们应该知道，数据库里有一种很常见的那就是关系型数据库。这是一种建立在关系代数运算基础上的数据库。我们知道，数据库存储的数据通常是相当庞大的，那么数据库进行的关系运算常常也会需要用到 $M a pR e d u ce$ 。

选择运算

选择运算就是选择出符合关系表达式的数据。比如， $\sigma_{A='b'}$ 表达的意思就是选择出在属性 $A$ 上值为 $b$ 的元组。那么这个应该如何做呢？其实很简单

Map Tasks

map阶段，根据条件 $A =^{'} b^{'}$ 筛选出符合关系的元组 $t$ ，生成键值对 $(t, t)$

Reduce Tasks

把map送来的结果直接输出就好。

并不是多此一举！！！前文有提到，这样能并行运算提高效率。

投影运算

投影运算，就是把一整张表的指定属性列取出来，并做去重。比如 $\pi_s$ ，假定 $S$ 属性里面有[1, 1, 2, 3 ,4]，那么投影的结果就是[1, 2, 3, 4]。

Map Tasks

还是对属性里存在的元组输出键值对 $t^1, t^1)$ ， $t^1$ 表示在属性列上的投影元组，与整个元组 $t$ 区分开。

Reduce Tasks

对Map发来的键值对分组，每组变成 $t^1, [t^1, t^1...])$ ，在这之后，对存在的组别，输出 $t^1$ 即可。

并集，交集，差集运算

这几个运算比较简单，讲一下大致的思路。假设我们要求若干个集合的交并差，Map阶段可以输出 $(t, i d x)$ ，即元组加上集合编号。Reduce阶段对键进行组合后，得到若干 $(t, [1, 2])$ $(t, [2, 4])$ 这种的元组。如果取并集，我们就挑选全部的元组输出，取交则挑选第二项包含全部序号的元组输出，取差则是挑选第二项只包含被减集合序号的元组输出。