开源点云数据处理开源_使用开源软件教授大数据处理

最新推荐文章于 2023-12-24 15:08:09 发布

cumo3681

最新推荐文章于 2023-12-24 15:08:09 发布

阅读量878

点赞数

文章标签：大数据编程语言 hadoop 数据库 python

原文链接：https://opensource.com/education/15/9/teaching-big-data-with-open-source-software

版权

开源点云数据处理开源

海量和多样化数据量的持续增长以及数据密集型应用程序的增长，提出了在所有部门中寻找有效数据管理手段的需求。根据最近的一份报告，企业在大数据管理方面面临巨大的技能缺口，仅在英国，缺口就从2007年的400人增加到2012年的4,000人。除此之外，学生对当前的数据分析过程普遍缺乏了解，随着物联网（IoT）和实时数据的增长，这对于未来的挑战变得尤为重要。

作为计算机科学家，研究和构建建模与仿真应用程序时，我最初对大数据一词的吸引力感到困惑。业务似乎集中在用于数据分析的Hadoop相关软件上，简历中包含与Hadoop相关的项目可能是一个好处。作为云计算和软件工程的老师，我决定分配两个与Hadoop有关的项目，以“智能城市”为重点进行大数据管理，并对他们的学习目标进行采访，以了解他们对该技术的看法。

前提条件是，学生有充分的自由来研究Hadoop大数据处理的主题，并要求他们探索在该领域中想要使用的任何工具。 Hadoop是一套工具，可通过多个作业执行来支持大数据应用程序的运行，以允许快速处理大量数据。这是一种运行MapReduce作业的环境，该作业通常是按批次排序的。 Hadoop已成为需要分析数据的科学项目中最重要的工具之一。我的学生研究的一些与Hadoop相关的工具包括：

Apache Ambari ：用于管理和监视Hadoop集群的框架
Apache Pig ：一个运行代码的平台，用于分析大型数据集。
Apache Sqoop ：一种用于在Hadoop和其他数据存储之间移动数据的工具
Apache ZooKeeper ：一种用于提供同步和维护信息设置的工具。
Apache Spark ：一种更新的工具，用于更快地对某些类型的数据进行分析。
Apache Flume ：一种收集信息的系统，该信息随后存储在HDFS中。
Apache Hive ：允许用户使用类似SQL的语言来分析数据的工具。
Apache Oozie ：一种工具，可以按正确的顺序启动已分解为不同部分的分析作业。
Hadoop分布式文件系统（HDFS）：一种用于在节点之间划分数据的框架。
HCatalog ：一种用于上载表并用于管理数据的工具，它使用户可以使用Pig，Hive和MapReduce等不同的处理工具来分析数据。

在学生成功完成最后一年的毕业论文后，我问了他们一些问题，以了解他们从中学到的经验。这是我的两个学生Saudamini Sonalker和Rafiat Olubodun Kadiri的答复，他们正在使用Hadoop进行独立实验。

您为什么要学习Hadoop？只是为了学习新东西，还是您受到行业对该项目的兴趣的影响？

Saudamini：在读完Victor Mayer-Schonberger和Kenneth Cukier撰写的有关大数据的书之后，我的主要动机是从事这一主题的工作： 大数据：将改变我们生活，工作和思维方式的革命 。辅助大数据处理的工具具有预测性，这促使我进一步了解它。专注于智慧城市数据也是该项目的一个有趣元素。我想学习和更多地了解如何利用城市数据来使城市高效，绿色和智能。

Rafiat：我选择Hadoop的主题是因为它是一个新领域。这是一个时髦的词，最近一直在市场上占主导地位。不同的企业都利用它，包括Twitter和Facebook等社交媒体网站，它们使用Hadoop出于不同目的挖掘数据，从而使他们能够做出合理的商业决策。

公司将大数据用于什么？他们用它来问什么样的问题？

Saudamini：公司将大数据用于许多目的。亚马逊利用它来提供建议，Skyscanner和Kayak通过监视个人过去的搜索来调整航班价格，而Google使用它来确定搜索结果的顺序。大数据的一个有趣用途是阿姆斯特丹的Energy Atlas项目。它使用城市中的能耗数据通过让市民了解自己的使用量来促进可再生能源。

拉菲亚特：不同的公司对大数据的使用不同。公司使用大数据的方式取决于它们向公众提供的服务类型。诸如eBay和Amazon之类的企业使用大数据根据客户以前的购买历史以及其他客户的类似购买来预测客户的需求

在设置沙箱环境的同时安装Hadoop时遇到什么问题？是什么促使您选择Hortonworks Sandbox进行实验的？

Saudamini：在决定使用Hortonworks Data Platform之前，我探索了几个选择。选择它的主要原因是因为它是开源和免费的。其他竞争对手，例如MapR，Amazon Web Services和Cloudera，尽管平台不错，但价格昂贵。但是，设置沙箱有严格的内存要求。必须有64位处理器才能通过虚拟机访问沙箱，并且至少需要4GB RAM。这对我来说拖慢了进度，并且平台在要求方面没有灵活性。

Rafiat：有许多公共Hadoop集群设计用于在计算环境中存储和分析大量非结构化数据。它们在Heroku，Hortonworks Sandbox，Azure等云基础结构上可用。

经过几次搜索后，我决定使用Hortonworks Data Platform，这是一个开源的Apache Hadoop数据平台。系统要求包括使用Windows或Mac操作系统，至少4GB的RAM，虚拟机环境以及支持虚拟化的64位芯片。

第一步是下载虚拟机，然后从Hortonworks网站下载沙箱。之后，我使用给定的IP地址连接到沙箱。

我仍然要面对使用Hortonworks沙箱进行研究的一些负面方面。我暂时无法使用给定IP地址访问沙箱，但是经过多次试用后，它仍然有效。其次，虚拟机在打开计算机后就降低了我的计算机的速度，并且查询花费了很长时间。

此外，我还会遇到这样的问题，例如，当我的计算机自行关闭而不允许我自行关闭虚拟机时，下次我打开虚拟机时，虚拟机会出现配置错误，从而限制了我访问沙箱的速度。我面临的另一个问题是有时无法访问某些工具，这减慢了我的研究速度。

Hortonworks数据平台如何工作？

Saudamini：平台可分为三层：数据访问层，集群资源管理和HDFS。数据访问层是用户上载，编录和管理数据的地方；可以使用这一层输入其Hive / Pig作业，以供系统执行。群集资源管理（YARN）是数据处理引擎的体系结构中心，因此可以在HDFS上运行多个应用程序。该层实际上是其他两个的翻译器。最后，HDFS是MapReduce作业在主节点和从节点之间并行运行的地方。

Ambari是一个基于Web的GUI，可以与基础设备进行对话，并允许用户设置和管理Hadoop集群。

Rafiat：访问沙箱时，我被定向到一个页面，可以在其中访问Hive，文件浏览器，Pig，作业浏览器等其他工具。我可以上传不同类型的文件（zip文件，csv，xml），然后使用Hive，Pig和HCatalog等工具通过文件浏览器图标上传的文件来创建表格。然后，我可以创建查询以提供具有不同条件的不同类型的表，以满足需求。

Ambari可用于监视和管理Hadoop集群。监视已执行查询的结果，并显示查询对CPU使用率，内存使用率，网络使用率等的影响。

您探索了哪些工具，在此过程中学到了什么？

Saudamini：最初，我计划探索Pig和Hive，但是在Hortonworks Sandbox上运行Pig脚本时遇到了问题，因此无法使用Hive。 Hive查询语言与SQL非常相似，因此，如果有人精通SQL，那么使用该工具就不会有问题。在Hortonworks沙盒上，Hive具有一个称为Beeswax的图形用户界面。 Hive将您编写的查询转换为MapReduce作业。是否需要多个选项来处理数据取决于从事大型项目的用户的技能。蜂巢减少了培训或雇用外部资源以填补空白的需求。这种灵活性在类似情况下很有用。

Rafiat：我使用了Hive，它使用一种类似SQL的脚本语言，即HiveQL。适合熟悉结构化查询语言的用户。另外，Pig被用作数据分析的语言，它也是Hadoop上的高级处理层。它由一种叫做Pig Latin的语言组成。

您处理了哪种文件？智慧城市数据集？

Saudamini：我专注于智慧城市数据，尤其是伦敦的交通和社交数据。

拉菲亚特：这项实验使用了智慧城市数据，大部分数据是从国际电联数据统计网站和伦敦数据存储网站中检索到的。

实验的目标是什么？你取得了什么成就？

Saudamini：目标是观察基础机械和群集负载的性能。处理完不同的大数据文件后，我比较了CPU性能，群集负载，内存使用率和网络使用率的结果。

该平台上处理了运输和社交数据，以检查在伦敦实施智能办公室以减少交通量并节省人们时间的可行性。假设是在交通繁忙的行政区和大多数工作地点的行政区之间存在相关性。尽管在大多数情况下都可以保留，但这些区并不像最初想象的那样在伦敦市中心。

Rafiat：该实验的目的是分析将从不同来源（例如ITU（国际电信联盟）网站，伦敦数据存储，Amazon Web Services上的公共数据集）中检索到的数据集。目标是使用卷作为一种分析数据时要考虑的标准。通过这样做，实验将能够显示处理数据需要多长时间。

如果现在给您一个用于大数据处理的项目，您将如何处理它？

Saudamini：如果时间不是问题，价格也不成问题，那么我建议您使用Hortonworks Sandbox，因为它在处理数据源类型，数据处理工具选项和Ambari环境方面具有灵活性，可提供有益的数据管理经验。但是，如果时间至关重要，而金钱不是影响因素，那么查看在云中提供类似用户体验的其他选项将是有益的。

拉菲亚特：我会在单独的专用于该平台的机器上使用Hortonworks Data Platform，因为我自己的机器规格不是很高。

作为计算机科学专业的学生，您认为对于数据管理，我们应该始终使用此类工具吗？

Saudamini：如果您正在使用的数据集很大，那么我建议使用此类大数据工具是明智的。它们的灵活性和快速处理能力使其非常适合作为解决智慧城市问题的解决方案。但是，我不相信我们应该始终使用它们。如果数据集不需要，我们实际上可以尝试避免使用这些工具。其他BI工具可以完成许多分析功能。大数据工具的学习曲线可能很陡峭，在部署使用大数据工具的系统时应考虑培训用户。

Rafiat：数据管理是一个非常重要的主题。以学生，个人或组织的身份有效管理数据有许多不同的优势。这包括防止数据重复，这将节省内存空间。如果需要，它可以验证结果。数据管理可以正确理解数据，使用查询来提供所需的特定信息，因此可以轻松理解数据。

总之，在使用工具处理ig数据应用程序方面，我们得到了不同的结果。当时，开放的Hadoop数据平台似乎是显而易见的选择。如前所述，MapReduce是Hadoop分布式文件系统的核心。 Hortonworks Sandbox配备了第二代MapReduce YARN。它划分了两个重要任务，并使过程更高效。 YARN支持批处理以及实时处理项目。 Hortonworks数据平台具有适应用户现有数据架构的能力，这是一个巨大的优势。除了该平台是免费，高效和适应性强的，它还提供了大量有关使用其提供的服务的教程和基于用户的指南。

由于它是当前的流行语，因此有许多可用的大数据处理平台。大多数服务；仅举几例，Amazon Web Services，Cloudera，MapR等根据其处理的流量和数据量向用户收费。 Cloudera的网站宣称：“该公司的企业数据中心（EDH）软件平台使组织能够存储，处理和分析任何类型，任何数量的所有企业数据，从而创造了显着的成本效益并实现了业务转型。”

当前向开放数据生成大量数据的方向发展，需要实时处理，需要智能解决方案进行处理。拥有更多的开源工具可以推动进一步的开放数据研究，不仅影响计算，还影响社会科学，经济学家和政府也可以利用这些数据来使用大数据。

回到
学校

本文是“ 重返校园”系列的一部分，该系列侧重于面向所有级别学生的开源项目和工具。

翻译自: https://opensource.com/education/15/9/teaching-big-data-with-open-source-software

开源点云数据处理开源

cumo3681

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
开源点云数据处理开源_使用开源软件教授大数据处理

开源点云数据处理开源海量和多样化数据量的持续增长以及数据密集型应用程序的增长，提出了在所有部门中寻找有效数据管理手段的需求。根据最近的一份报告，企业在大数据管理方面面临巨大的技能缺口，仅在英国，缺口就从2007年的400人增加到2012年的4,000人。除此之外，学生对当前的数据分析过程普遍缺乏了解，随着物联网（IoT）和实时数据的增长，这对于未来的挑战变得尤为重要。作为计算机...
复制链接

扫一扫