在AWS Elastic MapReduce上运行PageRank Hadoop作业

最新推荐文章于 2024-03-13 15:30:51 发布

dnc8371

最新推荐文章于 2024-03-13 15:30:51 发布

阅读量155

点赞数

文章标签： java hadoop 大数据 spark python

在上一篇文章中，我描述了执行PageRank计算的示例，该示例是使用Apache Hadoop进行Mining Massive Dataset课程的一部分。在那篇文章中，我接受了Java中现有的Hadoop作业，并做了一些修改（添加了单元测试，并通过参数设置了文件路径）。这篇文章展示了如何在现实的Hadoop集群上使用此作业。该集群是一个由1个主节点和5个核心节点组成的AWS EMR集群，每个集群均由m3.xlarge实例支持。

第一步是为集群准备输入。我使用AWS S3是因为这是使用EMR时的便捷方式。我创建了一个新存储桶'emr-pagerank-demo'，并制作了以下子文件夹：

in：包含作业输入文件的文件夹
job：包含我的可执行Hadoop jar文件的文件夹
日志：EMR将放置其日志文件的文件夹

然后，在“ in”文件夹中，我复制了要排名的数据。我用这个文件作为输入。解压缩后，它变成了一个具有XML内容的5 GB文件，尽管不是很大，但对于此演示来说已经足够。当您使用前一篇文章的源代码并运行“ mvn clean install”时，您将获得jar文件：“ hadoop-wiki-pageranking-0.2-SNAPSHOT.jar”。我将此jar文件上传到“作业”文件夹。

就是为了准备。现在我们可以启动集群了。在此演示中，我使用了AWS管理控制台：

- 命名集群
- 输入日志文件夹作为日志位置

- 输入核心实例数

- 为我们的自定义罐添加一个步骤

- 像这样配置步骤：

- 这将导致以下概述：

如果正确，则可以按“创建集群”按钮，并使EMR进行工作。您可以在控制台的“监视”部分监视集群：

并在“步骤”部分中监视步骤的状态：

几分钟后，作业将完成（当然取决于输入文件的大小和使用的群集）。在我们的S3存储桶中，我们可以看到在'log'文件夹中创建了日志文件：

在这里，我们总共看到7个作业：1 x Xml准备步骤，5 x rankCalculator步骤和1 x rankOrdering步骤。

更重要的是，我们可以在“结果”文件夹中查看结果：

每个reducer都会创建自己的结果文件，因此我们在这里有多个文件。我们对排名最高的网页感兴趣，因为其中的网页排名最高。如果我们查看此文件，将看到以下结果排在前10位：

271.6686	Spaans
274.22974	Romeinse_Rijk
276.7207	1973
285.39502	Rondwormen
291.83002	Decapoda
319.89224	Brussel_(stad)
390.02606	2012
392.08563	Springspinnen
652.5087	2007
2241.2773	Boktorren

请注意，当前的实现只运行5次计算（硬编码），因此实际上并没有如MMDS理论中所描述的那样进行幂次迭代（对软件的下一版进行了很好的修改：-）。

另请注意，使用默认设置时，作业完成后群集不会终止，因此在手动终止群集之前，群集的成本会增加。