自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据学习与分享的博客

【微信公众号:大数据学习与分享】专注于大数据领域常用技术,如Spark、Hadoop、Hive、HBase、Kafka、Zookeeper等技术的使用、实战技巧、源码解读,语言主要以Java和Scala为主

  • 博客(5)
  • 收藏
  • 关注

原创 监控Yarn上运行的Spark任务实例状态

可以通过要监控的任务列表,对比存活的Spark任务,不存在的可以通过短信或邮件的方式预警。获取Spark还在运行状态任务的示例代码:private def yarn(): Unit = { val yarnConf = new YarnConfiguration() val yarnClient = YarnClient.createYarnClient() yarnC...

2020-04-24 21:01:11 1152

原创 Spark和MapReduce任务计算模型

【前言:本文主要从任务处理的运行模式为角度,分析Spark计算模型,希望帮助大家对Spark有一个更深入的了解。同时拿MapReduce和Spark计算模型做对比,强化对Spark和MapReduce理解】从整体上看,无论是Spark还是MapReduce都是多进程模型。如,MapReduce是由很多MapTask、ReduceTask等进程级别的实例组成的;Spark是由多个worker、ex...

2020-04-17 21:14:25 564

原创 一个Git终端如何配置多个Git仓库和账户

通常情况下,很多公司会将代码托管到GitLab或者第三方平台上(如阿里)进行管理,而我们自己的开源项目等通常是托管到GitHub上,每个托管网站都对应一个Git账户。默认情况下,一台电脑上的Git对应一个Git账户,也就只能往一个网站push代码,很不方便,尤其是对于用自己的电脑用来办公,操作不好,很容易产生冲突。本篇文章将以双账户为例,详细介绍如何在一个Mac Git终端配置多个账户,同时管...

2020-04-15 22:56:25 1468

原创 Redis中的哈希问题

在说redis中的哈希(准确来说是一致性哈希)问题之前,先来看一个问题:为什么在分布式集群中一致性哈希会得到大量应用?在一个分布式系统中,要将数据存储到具体某个节点,或者将来自客户端的请求分配到某个服务器节点做负载均衡,如果采用普通的hash取模算法进行映射,即如key.hashCode()%N,key代表数据的key,N是服务器节点数,使用上能达到预期效果。但是如果此时要下线一个服务器或者上...

2020-04-10 13:20:19 1133

原创 重要 | Spark分区并行度决定机制

最近经常有小伙伴留言,核心问题都比较类似,就是虽然接触Spark有一段时间了,但是搞不明白一个问题,为什么我从HDFS上加载不同的文件时,打印的分区数不一样,并且好像spark.default.parallelism这个参数时不是一直起作用?其实笔者之前的文章已有相关介绍,想知道为什么,就必须了解Spark在加载不同的数据源时分区决定机制以及调用不用算子时并行度决定机制以及分区划分。其实之前的文...

2020-04-01 22:23:12 1122

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除