自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

卡奥斯道的博客

追逐梦想的心

  • 博客(11)
  • 收藏
  • 关注

原创 hive内部表,外部表,分区表,桶表,函数及自定义函数

环境:CentOS-6.5、hive-2.1.0。首先安装好JDK、hadoop、mysql。mysql对远程可访问的机器进行授权

2017-08-27 20:16:30 2425

原创 spark源码分析之DAGScheduler提交作业(job)过程、stage阶段说明

1.DAGScheduler.scala主要作用:1.DAGScheduler为每一个job中计算出针对每一个stage的DAG,同时追踪与之对应的rdd,每一个阶段输出进行物化(输出保存到磁盘),同时找到一条运行spark job最有路径,根据是否有cache、是否有checkPoint。完毕之后将每一个阶段作为一个TaskSet责成内部在创建DAGScheduler对象

2017-08-26 09:54:42 761

原创 spark之核心概念简介

ClusterManager:在Standalone模式中即为Master(主节点),控制整个集群,监控Worker。在YARN模式中为资源管理器。Worker:从节点,负责控制计算节点,启动Executor。在YARN模式中为NodeManager,负责计算节点的控制。Driver:运行Application的main()函数并创建SparkContext。Executor:执行器,

2017-08-26 09:07:48 284

原创 spark性能优化之数据倾斜

数据倾斜一般只会发生在shuffle过程中,针对不同的数据分布情况,可以采用以下几种方式针对不同的应用场景。1.分析有可能发生数据倾斜(data skew)的位置及发生数据倾斜时的现象通常会发生数据倾斜的常用方法有:distinct、groupByKey、reduceByKey、aggregateByKey、join、cogroup、repartition等等,发生数据倾斜时,可能就是

2017-08-25 18:11:41 577

原创 Spark源码分析之worker节点启动driver和executor

一、启动driver1.首先在Master.scala类中执行schedule()方法,该方法主要有两个方法lanuchDriver()和launchExecutor()分别用来启动driver和executor。在master上面一旦可用资源发生变动或者有新的application提交进来之后就会调用该schedule()方法。2.先去调度所有的driver,针对这些applic

2017-08-25 13:17:30 641

原创 elasticsearch之javaAPI简单操作增删改、批量处理(一)

elasticsearch之javaAPI简单操作--增删改。往es中添加数据的时候,根据数据源类型的不同,可以有以下4中方式: json、map、对象object、XContentBuilder(反射注入)修改,删除,以及批量增加bulk

2017-08-23 20:17:32 429

原创 elasticsearch之curl操作PUT和POST区别

1.更新:PUT会将新的json值完全替换掉旧的;而POST方式只会更新相同字段的值,其他数据不会改变,新提交的字段若不存在则增加。2.PUT和DELETE操作是幂等的。所谓幂等是指不管进行多少次操作,结果都一样。比如用PUT修改一篇文章,然后在做同样的操作,每次操作后的结果并没有什么不同,DELETE也是一样。3.POST操作不是幂等的,比如常见的POST重复加载问题:当我们多次发出同样

2017-08-22 23:51:18 5870

原创 spark内核执行流程简单说明

前提:基于spark standalone模式进行说明。Driver:实际是通过spark-submit脚本提交的内部创建sparkContext的main程序。sparkContext:最重要的是创建并初始化sparkContext对象。DAGScheduler:根据代码业务逻辑,将transformation划分出各个stage,再对每一个stage分配一批task,构成tasks

2017-08-22 13:29:43 333

转载 spark之实用案例

运行环境介绍为了避免读者对本文案例运行环境产生困惑,本节会对本文用到的集群环境的基本情况做个简单介绍。本文所有实例数据存储的环境是一个 8 个机器的 Hadoop 集群,文件系统总容量是 1.12T,NameNode 叫 hadoop036166, 服务端口是 9000。读者可以不关心具体的节点分布,因为这个不会影响到您阅读后面的文章。本文运行实例程序使用的 Spark 集

2017-08-21 19:24:17 13024

原创 java之单例(懒汉式、饿汉式)

懒汉式(线程安全)public class Singleton { private static Singleton singleton; private Singleton(){} public static Singleton getInstance(){ //作用:用来判断第一次获得单例是否为空 //避免以后调用时加锁操作

2017-08-21 11:58:04 402

原创 hadoop分布式安装

部署zk,hadoop集群CentOS环境安装 CentOS-6.5-x86_64-bin-DVD.iso 三台机器分别为hadoop01、hadoop02、hadoop03 版本:hadoop-2.6.4 jdk1.8.0_112 zookeeper-3.4.6 安装目录:/opt 下 集群的部署情况 hadoop01 192.168.100.100 jdk、hadoop、zk namenode、zk、journade、zkfc hadoop02 192.168.100.101

2017-08-20 12:21:17 296

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除