Spark
木心文刀
这个作者很懒,什么都没留下…
展开
-
python 管理yarn资源中任务状态
通过api接口,操作yarn资源管理中的人物#!/usr/local/python3/bin/python3import requestsimport jsonimport datetimefrom datetime import datetimefrom datetime import timezonefrom datetime import timedelta#ip地址ip="192.168.0.160"#job运行时长,需要kill的任务,单位:秒task_interval=原创 2021-03-13 14:47:15 · 1113 阅读 · 0 评论 -
CDH默认Dynamic Allocation 动态分配
转自:https://blog.csdn.net/zyzzxycj/article/details/81011540spark.dynamicAllocation.enabled是否开启动态资源配置,根据工作负载来衡量是否应该增加或减少executor,默认false以下相关参数:spark.dynamicAllocation.minExecutors动态分配最小executor个数,在启动时就申请好的,默认0spark.dynamicAllocation.maxExecutors转载 2021-01-26 11:16:07 · 189 阅读 · 0 评论 -
spark 处理当前数据所在的文件名称和目录
package com.lyg.coreimport org.apache.spark.SparkContextimport org.apache.spark.rdd.{HadoopRDD, NewHadoopRDD, RDD}import org.apache.spark.sql.SparkSession/** * ClassName: ReadDataToDirectory...原创 2019-12-01 16:46:19 · 924 阅读 · 0 评论 -
Spark之RDD输出到不同的文件名和目录
import org.apache.hadoop.io.NullWritableimport org.apache.hadoop.mapred.lib.MultipleTextOutputFormat/** * ClassName: qqqq * Author: yage.liu * Date: 2017年12月01日 17:02 * Version: V1...原创 2019-12-01 17:06:10 · 1016 阅读 · 2 评论