2016年09月_Xlucas

原创 TaskTracker行为分析

tasktracker的行为分析，启动新任务、提交任务、杀死任务、杀死作业、重启初始化

2016-09-30 23:47:28 2394

原创 shell多线程编程

业务开发过程中，经常会在后台写一些shell脚本处理数据，但估计很多人不知道shell脚本也可以支持多线程，而且非常简单。本篇文章主要就是介绍shell实现多进程以及进程数量控制需求：有一个文件里面有一组数值，shell脚本读取文件中的每一行值的时候就需要sleep对应值得时间，文件中的内容加起来等于45s[root@localhost test]# cat file 12563

2016-09-30 00:48:45 1527

原创 Hadoop1中Task运行过程

当我们编写一个Mapreduce的作业时候，只需要实现map()和reduce()两个函数就可以。其中map阶段大概可以划分 read 、map、collect、spill和combine五个阶段。reduce阶段可以划分shuffle、merge、sort、reduce和write五个阶段。一个应用程序被划分成map和reduce两个计算阶段，它们分别有一个或者多个map task或者re

2016-09-29 00:32:38 2554 1

原创 Oracle函数的使用

在进行select查询的时候，可以为列指定函数，函数是sql语句中的一个非常有用的特性，oracle内置了用于处理字符，数字，日期及转换的各种函数，使用函数能够执行数据计算，修改列数据的显示，进行分组统计及数据类型的转换等 sql函数分为2大类 1、单行函数：仅对单个行进行计算，并且每行返回一个结果，单行函数包含字符、数字、日期及转换这几种类型 2、多行函数：用来成组操

2016-09-27 00:03:23 1463

在Jobtracker更新状态以后，Jobtracker要为Tasktracker构造一个HeartbeatResponse对象作为心跳应答，该对象主要有2个部分内容：下达给Tasktracker的命令和下次心跳的时间**下达命令**Jobtracker将下达给Tasktracker的命令封装成TasktrackerAction类，主要包括了ReinitTrackerAction(重新初始化)、L

2016-09-26 23:23:47 979

原创 Hadoop心跳机制

心跳是Jobtracker和Tasktracker的桥梁，它实际上是一个RPC函数，Tasktracker周期性的调用该函数汇报节点和任务状态信息，从而形成心跳。在hadoop中，心跳主要有三个作用： 1、判断Tasktracker是否活着 2、及时让Jobtracker获取各个节点上的资源使用情况和任务运行状态 3、为Tasktracker分配任务注意：Jobtracker与Tasktr

2016-09-26 23:17:45 3963

原创 spark dataframe函数编程

以下函数的说明之针对于spark1.4.1dataframe类的说明。 Only for spark version1.4.1 DataFrame 的函数 Action 操作 1、 collect() ,返回值是一个数组，返回dataframe集合所有的行 2、 collectAsList() 返回值是一个java类型的数组，返回dataframe集合所有的行 3、 count() 返回

2016-09-11 00:59:56 2265

原创 Hadoop之Jobtracker启动过程

1、Jobtracker启动过程 Jobtracker是一个后台进程，它包含了一个main函数。我们可以从main函数入手，逐步分析Jobtracker启动过程。在main函数中有2行比较重要的代码分别是： JobTracker tracker = startTracker(new JobConf());//创建一个JobTracker的对象 tracker.offerServ

2016-09-11 00:53:40 2971

原创 Hadoop作业初始化过程

调度器调用JobTracker.initJob();函数对新作业进行初始化，作业初始化的主要工作是构造Map Task和Reduce Task并对它们进行初始化。hadoop将每一个作业分解成4种类型的任务，分别是Setup Task、Map Task、Reduce Task和Cleanup Task .它们的运行时信息由TaskInprogress类维护。因此，创建这些任务实际上是创建TaskIn

2016-09-11 00:30:27 1164

原创 JobTracker的概述

JobTracker涉及的功能包括作业管理、状态监控、任务调度器等， JobTracker主要包含的2个功能：资源管理和作业控制。每一个应用程序表示一个作业，每个作业又被进一步分成多个任务，而JobTracker的作业控制模块则负责作业的分解和状态监控。 1、JobTracker的概述： 1、1作业控制： JobTracker在其内部以“三层多叉树”的方式描述和跟踪每个作业的运行状态，作

2016-09-08 23:36:17 5439

原创 hadoop1.X作业提交过程详细讲解

**Jobclient 准备运行环境 Jobtracker 接收作业 Taskscheduler 初始化作业**作业提交：总体来言，作业提交还是比较简单的，主要涉及创建目录、上传文件等操作；一旦用户提交了作业以后，Jobtracker端便会对作业进行初始化，初始化的作业主要是根据输入数据量和作业的配置参数将作业分解成若干个map task 和reduce task整个过程：用户使用had

2016-09-08 23:34:11 950

原创 spark运行模式

spark运行模式列表基本上，spark的运行模式取决于传递给sparkcontext的deployMode和master环境变量的值，个别模式还需要辅助的程序接口来配合使用，目前master有LOCAL、YARN 、STANDALONE 、MESOS 模式。而deploy-mode必须是cluster、client的一种 spark 1.6里面用数字表示了启动的模式// Cluste

2016-09-05 00:26:14 2630

原创 servlet请求表单数据（二）

使用表单的 POST 方法实例让我们对上面的 Servlet 做小小的修改，以便它可以处理 GET 和 POST 方法。下面的 ServletForm.java Servlet 程序使用 GET 和 POST 方法处理由 Web 浏览器给出的输入。注意：如果表单提交的数据中有中文数据则需要转码：String name =new String(req.getParameter("name").

2016-09-04 21:18:19 590

原创 servlet请求表单数据（一）

servlet表单数据很多情况下，需要传递一些信息，从浏览器到web服务器，最终到后台程序，浏览器使用两种方法可将这些信息传递到web服务器，分别为GET方法和POST方法 GET方法 GET方法向页面请求发送已编码的用户信息，页面和已编码的信息中间用?字符分隔，多个信息用&分隔 http://localhost:8080/javaEE/xlucas/ServletForm?name=xl

2016-09-04 15:55:03 796

原创从源码阶段InputFormat设计

InputFormat主要用于描述输入数据的格式，它提供了2个功能1、数据切分：按照某个策略将输入数据切分成若干个split，以便确定map task个数以及对应的split2、为Mapper提供输入数据：给定某个split，能将其解析成一个个key/value对在新版的API的InputFormat解析在新版的API中InputFormat是一个抽象类，它包含了2个方法 List getSpl

2016-09-04 11:18:34 606

原创 Hadoop2.x从源码讲解作业配置

Job在新API的作业配置 Job 类继承了JobContextImpl 类实现了接口JobContext接口 Job提供了写setter方法，例如 setNumReduceTasks 设置reduce数量 setMapperClass 设置运行Mapper的类等等。用来这只任务在运行过程中的一些属性值，这个方法其实实现都是用conf调用setter来实现的，而JobCon

2016-09-03 21:22:30 704

原创从源码解读context对象的作用

在我们写mapreduce的程序时候总会有这么一段代码，这个代码就是map方法的实现，里面有一个参数 context对象，但是这个context对象究竟是干什么的呢？ public void map(Object key, Text value, Context context ) throws IOException, InterruptedExceptio

2016-09-03 12:11:52 705

原创 sqoop的安装和原理

Sqoop 是一款数据迁移的工具，可以从 mysql等数据库迁移到 hdfs 里面，依赖 yarn 和 hdfs,如果服务器上面有$HADOOP_HOME这个变量，sqoop会自动去读取这个值来寻找yarn和namenode，安装在一台节点机上面就可以了安装 tar -xvf sqoop-1.4.4.bin__hadoop-2.0.4-alpha.tar.gz -C /home/hadoop/

2016-09-03 10:55:46 522

原创 Servlet生命周期

Servlet 生命周期可被定义为从创建直到毁灭的整个过程。以下是 Servlet 遵循的过程： ● Servlet 通过调用 init () 方法进行初始化。 ● Servlet 调用 service() 方法来处理客户端的请求。 ● Servlet 通过调用 destroy() 方法终止（结束）。 ● 最后，Servlet 是由 JVM 的垃圾回收器进行垃圾回收的。现

2016-09-03 10:30:36 333

原创 Servlet是什么

Servlet 是什么？ Java Servlet 是运行在 Web 服务器或应用服务器上的程序，它是作为来自 Web 浏览器或其他 HTTP 客户端的请求和 HTTP 服务器上的数据库或应用程序之间的中间层。使用 Servlet，您可以收集来自网页表单的用户输入，呈现来自数据库或者其他源的记录，还可以动态创建网页。 Java Servlet

2016-09-01 23:52:47 712

Xlucas的博客