2017年08月_卡奥斯道

原创 hive内部表，外部表，分区表，桶表，函数及自定义函数

环境：CentOS-6.5、hive-2.1.0。首先安装好JDK、hadoop、mysql。mysql对远程可访问的机器进行授权

2017-08-27 20:16:30 2425

原创 spark源码分析之DAGScheduler提交作业(job)过程、stage阶段说明

1.DAGScheduler.scala主要作用：1.DAGScheduler为每一个job中计算出针对每一个stage的DAG，同时追踪与之对应的rdd，每一个阶段输出进行物化(输出保存到磁盘)，同时找到一条运行spark job最有路径，根据是否有cache、是否有checkPoint。完毕之后将每一个阶段作为一个TaskSet责成内部在创建DAGScheduler对象

2017-08-26 09:54:42 761

原创 spark之核心概念简介

ClusterManager：在Standalone模式中即为Master（主节点），控制整个集群，监控Worker。在YARN模式中为资源管理器。Worker：从节点，负责控制计算节点，启动Executor。在YARN模式中为NodeManager，负责计算节点的控制。Driver：运行Application的main()函数并创建SparkContext。Executor：执行器，

2017-08-26 09:07:48 284

原创 spark性能优化之数据倾斜

数据倾斜一般只会发生在shuffle过程中，针对不同的数据分布情况，可以采用以下几种方式针对不同的应用场景。1.分析有可能发生数据倾斜（data skew）的位置及发生数据倾斜时的现象通常会发生数据倾斜的常用方法有：distinct、groupByKey、reduceByKey、aggregateByKey、join、cogroup、repartition等等，发生数据倾斜时，可能就是

2017-08-25 18:11:41 577

原创 Spark源码分析之worker节点启动driver和executor

一、启动driver1.首先在Master.scala类中执行schedule()方法，该方法主要有两个方法lanuchDriver()和launchExecutor()分别用来启动driver和executor。在master上面一旦可用资源发生变动或者有新的application提交进来之后就会调用该schedule()方法。2.先去调度所有的driver，针对这些applic

2017-08-25 13:17:30 641

原创 elasticsearch之javaAPI简单操作增删改、批量处理（一）

elasticsearch之javaAPI简单操作--增删改。往es中添加数据的时候，根据数据源类型的不同，可以有以下4中方式： json、map、对象object、XContentBuilder(反射注入)修改，删除，以及批量增加bulk

2017-08-23 20:17:32 429

原创 elasticsearch之curl操作PUT和POST区别

1.更新：PUT会将新的json值完全替换掉旧的；而POST方式只会更新相同字段的值，其他数据不会改变，新提交的字段若不存在则增加。2.PUT和DELETE操作是幂等的。所谓幂等是指不管进行多少次操作，结果都一样。比如用PUT修改一篇文章，然后在做同样的操作，每次操作后的结果并没有什么不同，DELETE也是一样。3.POST操作不是幂等的，比如常见的POST重复加载问题：当我们多次发出同样

2017-08-22 23:51:18 5870

原创 spark内核执行流程简单说明

前提：基于spark standalone模式进行说明。Driver：实际是通过spark-submit脚本提交的内部创建sparkContext的main程序。sparkContext：最重要的是创建并初始化sparkContext对象。DAGScheduler:根据代码业务逻辑，将transformation划分出各个stage，再对每一个stage分配一批task，构成tasks

2017-08-22 13:29:43 333

转载 spark之实用案例

运行环境介绍为了避免读者对本文案例运行环境产生困惑，本节会对本文用到的集群环境的基本情况做个简单介绍。本文所有实例数据存储的环境是一个 8 个机器的 Hadoop 集群，文件系统总容量是 1.12T，NameNode 叫 hadoop036166, 服务端口是 9000。读者可以不关心具体的节点分布，因为这个不会影响到您阅读后面的文章。本文运行实例程序使用的 Spark 集

2017-08-21 19:24:17 13024

原创 java之单例(懒汉式、饿汉式)

懒汉式（线程安全）public class Singleton { private static Singleton singleton; private Singleton(){} public static Singleton getInstance(){ //作用：用来判断第一次获得单例是否为空 //避免以后调用时加锁操作

2017-08-21 11:58:04 402

部署zk,hadoop集群CentOS环境安装 CentOS-6.5-x86_64-bin-DVD.iso 三台机器分别为hadoop01、hadoop02、hadoop03 版本：hadoop-2.6.4 jdk1.8.0_112 zookeeper-3.4.6 安装目录：/opt 下集群的部署情况 hadoop01 192.168.100.100 jdk、hadoop、zk namenode、zk、journade、zkfc hadoop02 192.168.100.101

2017-08-20 12:21:17 296

卡奥斯道的博客