在HDInsight上运行Scala实现的Hadoop作业

最新推荐文章于 2024-06-04 00:51:39 发布

danpie3295

最新推荐文章于 2024-06-04 00:51:39 发布

阅读量139

点赞数

文章标签：大数据 python hadoop spark java

以前，我们设置了Scala应用程序，以便在hadoop上执行简单的字数统计。

接下来是将我们的应用程序上载到HDInsight。

因此，我们将继续在HDInsight上创建Hadoop集群。

然后，我们将创建hadoop集群。

如您所见，我们指定了管理控制台凭据和ssh用户来登录头节点。

我们的hadoop集群将由一个Azure存储帐户提供支持。

然后是时候将我们的文本文件上传到Azure存储帐户了。

有关使用azure cli管理存储帐户的更多信息，请查看官方指南。任何文本文件都可以。

azure storage blob upload mytext.txt scalahadoopexample  example/data/input.txt

现在我们可以使用ssh到我们的Hadoop节点。

首先，我们运行HInsight hadoop集群随附的示例。

hadoop jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/input.txt /example/data/results

检查结果

hdfs dfs -text /example/data/results/part-r-00000

然后我们准备将scala代码scp到我们的hadoop节点并以wordcount的形式发布。

hadoop jar ScalaHadoop-assembly-1.0.jar /example/data/input.txt /example/data/results2

并再次检查结果

hdfs dfs -text /example/data/results2/part-r-00000

而已！ HDinsight使它变得非常简单！

翻译自: https://www.javacodegeeks.com/2017/02/run-scala-implemented-hadoop-jobs-hdinsight.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

danpie3295

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Hadoop、Spark和Hive调优优化原理

程序员光剑

08-03

939

1995年伊藤博文等人提出了MapReduce计算框架，将海量的数据分布式地处理在多台计算机上，并通过分割输入数据集并将其划分为多个任务来并行执行计算，最后合并结果得到整体输出。然而随着互联网和大数据的普及以及处理器性能的提升，当时的技术已经远远超过了当时能够想象的范围。这段时间MapReduce计算框架已经成为一个主流的开源计算框架，包括Hadoop、Pig、Hive、Mahout、Storm等。

Hadoop 集群规划与部署最佳实践

程序员光剑

08-04

922

2009年2月2日，Apache Hadoop项目诞生。它是一个开源的分布式系统基础架构，用于存储、处理和分析海量的数据。Hadoop具有高容错性、可靠性、可扩展性、适应性等特征，因而广泛应用于数据仓库、日志分析、网络流量监测、推荐引擎、搜索引擎等领域。由于Hadoop采用“分而治之”的架构设计理念，因此可以轻松应对数据量、计算能力和存储成本的增长。2013年底，随着云计算的火爆，基于云平台的Hadoop服务逐渐成为当下热门话题。

参与评论您还未登录，请先登录后发表或查看评论

hadoop scala spark 例子项目，运行了单机wordcount

07-28

hadoop scala spark 例子项目，运行了单机wordcount

SCALA hadoop

m0_52271180的博客

04-20

2154

开启主节点master 和子节点slave1slave2 （免密建立在了Hadoop用户上）先安装scala，进入opt/software文件夹下。上传scala安装包解压安装包到src下分发scala到子节点修改用户权限修改环境变量并生效两台子节点同理进入scala 退出：quit ...

Hadoop学习(8)-scala环境配置及简单使用

cxu123321的博客

07-09

711

Hadoop学习(8)-scala环境配置及简单使用学习scala的原因主要是因为以后要学习spark。 scala是运行在java虚拟机上的，它是一种面向对象和函数式编程结合的语言，并兼容java程序相对于java更简单安装scala前提你要保证你已经安装好了jdk 然后下载这个msi版本的，下载完直接下一步下一步傻瓜安装然后下载个IDEA 第一次新的IDEA没法创建scala 然后创建一个scala程序然后选择你的sdk位置...

Hadoop_Scala操作Hbase

MUTONG的博客

12-28

228

Hadoop_Scala操作Hbase package com.lius.hadoop.hbase import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.TableName import org.apache.hadoop.hbase.client.Connection import org.apache.hadoop.hbase.client.ConnectionFactory impor.

scala 执行 hive,hadoop,mysql等命令

huguoping830623的专栏

07-04

1613

import java.sql.{DriverManager, Connection, ResultSet} import scala.sys.process.Processobject Test2 { def main(args: Array[String]) { print(execute()) } def execute(): Int = { var seq=Seq("

scala支持hadoop_在HDInsight上运行Scala实施的Hadoop作业

04-26

195

scala支持hadoop 以前，我们设置了Scala应用程序，以便在hadoop上执行简单的字数统计。接下来是将我们的应用程序上载到HDInsight。因此，我们将继续在HDInsight上创建Hadoop集群。然后，我们将创建hadoop集群。如您所见，我们指定了管理控制台凭据和ssh用户来登录头节点。我们的hadoop集群将由一个Azure存储帐户...

MapReduce 原理与代码实例讲解

最新发布

程序员光剑

06-04

585

MapReduce 原理与代码实例讲解 1. 背景介绍在大数据时代，海量的数据已经成为许多企业和组织的宝贵资源。然而，传统的数据处理方式往往无法满足对大规模数据集的高效处理需求。为了解决这一问题,Google于2004年提出了MapReduce编程模型,它是一种用于大规模数据集并行

大数据平台技术选型及实施

程序员光剑

08-07

830

数据科学技术日新月异地涌现出大量高质量数据，但如何存储、处理和分析这些海量数据成为了业界头痛的问题。数据中心成为支撑大数据应用的基础设施之一，也是企业解决信息化、数字化转型、构建数字经济的关键所在。相比于传统的数据仓库模式，基于云平台的大数据存储、计算和分析服务，能够将数据集中存储，通过数据湖等存储层实现不同数据源数据的统一化集成，在数据分析和挖掘上具有更高的处理性能和灵活性。而大数据平台通常包括存储、计算、分析、监控和安全四个主要模块。

【大数据入门必备】：0基础快速掌握Hadoop核心原理

![【大数据入门必备】：0基础快速掌握Hadoop核心原理]...Hadoop的设计初衷是能够可靠地运行在廉价硬件上，并提供高吞吐量的数据处理能力。Hadoop不仅包括了用于存储大数据的HDFS（Hadoop Distributed File Sys

scala操作Hadoop Api改变目录权限成777及写入单个hdfs文件

whgyxy的博客

08-23

1073

scala操作Hadoop Api改变目录权限成777及写入单个hdfs文件 Hadoop 2.7.0支持修改目录的权限，可以修改成任意权限。这个问题的背景是，如果是某个人生成了一个hdfs路径，同一个group的成员如果想修改这个路径上面的内容，需要重新写入hdfs路径，在新的Hadoop Api这里会存在权限问题，必须将目录的权限修改下才能写入。如果想单独在某个hdfs目录下面写入一个文件，可以使用FSDataOutputStream类。spark生成的hdfs都是目录，这里使用输出流可以单独

《Scala机器学习》一一3.6　运行Hadoop的HDFS

weixin_33912638的博客

07-04

105

本节书摘来自华章计算机《Scala机器学习》一书中的第3章，第3.6节,作者：[美]　亚历克斯·科兹洛夫（Alex Kozlov），更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.6　运行Hadoop的HDFS 没有分布式存储的分布式框架是不完整的。HDFS是其中的一种分布式存储。即使Spark在本地模式下运行，它仍然可以在后台使用分布式文件...

大数据Hadoop之——Scala基础

匠人精神，持之以恒！

03-18

4346

文章目录一、概述二、Scala发展历史三、 Scala 和 Java 关系四、Scala 环境搭建一、概述 Scala是一门多范式的编程语言，一种类似java的编程语言，设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。Spark就是使用Scala编写的。因此为了更好的学习Spark, 需要掌握Scala这门语言，当然Spark的兴起，也带动Scala语言的发展！官方文档：https://www.scala-lang.org/ 二、Scala发展历史联邦理工学院的马丁·奥德

使用Scala在Hadoop上使用WordCount

04-01

297

Hadoop是使用Java构建的一项出色技术。今天，我们将使用Scala实施一个简单的地图缩小作业，然后使用HDInsight运行它。我们将在我们的assembly.sbt中添加程序集插件 addSbtPlugin("com.eed3si9n" % "sbt-assembly" % "0.14.3") Then we will add the Hadoop core depen...

Scala开发Hadoop示例

04-25

157

import org.apache.hadoop.conf.{Configuration, Configured}; import org.apache.hadoop.util.{ToolRunner, Tool}; import org.apache.hadoop.fs.Path; import org.apache.hadoop.mapreduce.lib.output.F...

大数据Hadoop第九周——Scala开发环境搭建+Scala语言值变量类型表达式

蔡军帅

04-26

346

大数据第9周 1.Scala开发环境搭建目前具备全部功能的集成开发环境只有Idea。下载解压idea：tar -zxvf ideaIE-2019.3.3.tar.gz。进入bin目录，执行：./idea.sh。选择新建一个project。接着按如下界面选择。进入如下界面。输入Project name。 JDK选择我们hadoop系统使用的同一个软件包...

linux+hadoop+scala+spark

jiangbo1984的专栏

12-01

673

《Spark实战高手之路-从零开始》

在Hadoop VM集群上部署Spark 2.6.0与Scala 2.11.6的详细教程

这些步骤确保了在Hadoop架构的基础上安装Spark，并且在集群中的各个节点上设置好了Scala环境，为Spark的运行提供了必要的基础。后续可能还需要对Spark配置进行调整，例如`spark-env.sh`、`core-site.xml`、`yarn-...