![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
yarn
qq_duhai
好记性不如烂笔头...
展开
-
运行在YARN上的Spark程序的Executor,Cores和Memory的分配
在跑Spark-On-Yarn程序的时候,往往会对几个参数(num-executors,executor-cores,executor-memory等)理解很模糊,从而凭感觉地去指定值,这是不符合有追求程序员信仰的。因此,搞懂它们,很有必要。本文翻译自https://spoddutur.github.io/spark-notes/distribution_of_executors_cores_a...转载 2019-12-25 10:26:43 · 782 阅读 · 1 评论 -
使用Spark SQL读取Hive上的数据
Spark SQL主要目的是使得用户可以在Spark上使用SQL,其数据源既可以是RDD,也可以是外部的数据源(比如Parquet、Hive、Json等)。Spark SQL的其中一个分支就是Spark on Hive,也就是使用Hive中HQL的解析、逻辑执行计划翻译、执行计划优化等逻辑,可以近似认为仅将物理执行计划从MR作业替换成了Spark作业。本文就是来介绍如何通过Spark SQL来读取...转载 2019-12-23 10:07:51 · 6259 阅读 · 0 评论 -
java ssh(jsch)实战
1.maven环境jar包引入<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.3.4</version></dependency>&...原创 2019-12-12 14:40:58 · 784 阅读 · 0 评论 -
spark-submit 参数
1、基础:spark基本的提交语句:./bin/spark-submit \ --class <main-class> \ --master <master-url> \ --deploy-mode <deploy-mode> \ --conf <key>=<value> \ ... # other options <ap...原创 2019-12-11 15:47:22 · 3679 阅读 · 0 评论 -
Hadoop YARN中web服务的REST API介绍
Hadoop YARN自带了一系列的web service REST API,我们可以通过这些web service访问集群(cluster)、节点(nodes)、应用(application)以及应用的历史信息。根据API返回的类型,这些URL源归会类到不同的组。一些API返回collector类型的,有些返回singleton类型。这些web service REST API的语法如下:...转载 2019-12-11 15:11:39 · 812 阅读 · 0 评论 -
yarn常用命令
1,yarn top类似linux里的top命令,查看正在运行的程序资源使用情况2, yarn queue -status root.users.xxxx查看指定queue使用情况3,yarn application -list -appStates 【ALL,NEW,NEW_SAVING,SUBMITTED,ACCEPTED,RUNNING,FINISHED,FAIL...转载 2019-12-11 15:04:55 · 278 阅读 · 0 评论 -
jsch教程(用java ssh 操作spark yarn任务)
Shell形式:package com.spark.demo.sub.spark;import java.io.BufferedReader;import java.io.InputStream;import java.io.InputStreamReader;import java.io.OutputStream;import java.io.PrintWriter;imp...原创 2019-12-11 14:15:44 · 379 阅读 · 0 评论 -
Hadoop 之 日志管理——应用在 YARN 中运行时的日志
背景:在写这篇博文前,自己一直没有弄明白一个问题,“在 Map 函数和 Reduce 函数中使用 System.out.print 打印日志时,输出内容在哪里显示?”。试了好多回,在 log/* 目录下找了很久都没有找到,并且尝试了很多次去找,都没有成功。这让我想通过此方法调试 Map/Reduce 函数以失败告终。最后,一次偶然的机会让我发现了关于日志的玄机。通过自己的观察和阅读参考书籍...转载 2019-12-11 11:02:13 · 286 阅读 · 0 评论 -
yarn 日志聚集配置
日志聚集相关配置参数日志聚集是YARN提供的日志中央化管理功能,它能将运行完成的Container/任务日志上传到HDFS上,从而减轻NodeManager负载,且提供一个中央化存储和分析机制。默认情况下,Container/任务日志存在在各个NodeManager上,如果启用日志聚集功能需要额外的配置。日志聚合/集 yarn资源管理器模式提供了日志聚合功能,通过参数ya...原创 2019-12-11 09:59:03 · 1544 阅读 · 0 评论 -
yarn application命令介绍
1、-list 列出所有 application 信息 示例:yarn application -list2、-appStates <States> 跟 -list 一起使用,用来筛选不同状态的 application,多个用","分隔; 所有状态:ALL,NEW,NEW_SAVING,SUBMITTED,ACCEPTED,RUNNING,F...原创 2019-12-11 09:43:34 · 305 阅读 · 0 评论 -
Hadoop _ 疑难杂症 解决1 - WARN util.NativeCodeLoader: Unable to load native-hadoop library for your plat
问题描述 :WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 这里描述下我出现问题的原因:主要是依赖包 版本 过低的问题。 首先我们要定位问题,出现该问题的原因主...转载 2019-12-05 17:29:18 · 754 阅读 · 1 评论 -
Spark on Yarn 环境搭建
本文记录Spark on Yarn的集群环境的搭建,并通过通过SparkPi实例程序来测试集群。在搭建本集群之前必须先搭建好Hadoop集群,搭建Hadoop集群请参考:Hadoop集群环境搭建(三台).主要内容:安装Spark 运行SparkPi1.安装Spark1.1.下载https://spark.apache.org/downloads.html下载...转载 2019-12-05 16:02:03 · 532 阅读 · 0 评论 -
Spark Yarn 提交作业
初学Spark时,部署的是Standalone模式(集成了HA),写的测试程序一般创建上下文时如下:此处master设置为管理节点的集群地址(spark webui上显示的地址) 。之后将测试代码打包成jar包,上传到服务器,使用spark-submit提交作业。提交命令:spark-submit --master spark://s44:7077 --name MyWo...转载 2019-12-05 15:11:52 · 227 阅读 · 0 评论