安金龙的修炼之路

Life is too short, don’t live the same day twice.

Hadoop源码分析---TextInputFormat、FileInputFormat、LineRecordReader

作用: 1、将输入切分成split,确定split大小,map个数。 由getSplits方法实现。  2、为mapper提供输入数据,key/value形式。getRecordReader方法 核心算法: 1、文件切分算 作用:确定split个数。 概念:  globalSize: totals...

2015-08-19 22:36:21

阅读数 1085

评论数 0

HDFS 写流程

待写,敬请期待

2017-07-10 21:30:02

阅读数 320

评论数 0

hadoop HDFS Federation

参考文档:http://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-hdfs/Federation.html

2017-07-10 21:28:35

阅读数 273

评论数 0

Hadoop partitioner及自定义partitioner

一、hadoop partitioner 所有partitioner都继承自抽象类Partitioner ,实现getPartition(KEY var1, VALUE var2, int var3),hadoop自带的partitioner有: (1)TotalOrderPartitioner...

2017-07-10 21:06:07

阅读数 386

评论数 0

Hadoop MapReduce 修改输出文件名 MultipleOutputs

需求:修改mapreduce的输出文件名称 为自己想要的名字 工具:MultipleOutputs 默认文件名:part-r-xxx 或者000178_0 修改后为: 自定义名字-r-xxx 后边的r-xxx还没有去掉 主要流程: 声明 multipleOutputs 在setup方法中初始化...

2017-07-07 22:45:49

阅读数 1687

评论数 0

HBase源码分析 -- HBase Region 拆分(split)

代码版本:hbase-1.2.6 工程:hbase-server 类:org.apache.hadoop.hbase.regionserver.HRegion 1、判断是否需要切分 方法: checkSplit 返回值: splitpoint 做了一些判断后,其实是调用: byte[] ret...

2017-07-01 23:34:02

阅读数 559

评论数 0

hive优化总结

1、列裁剪、分区裁剪 只查询需要的字段和分区,不使用select* 2、join优化 小表放左边 3、空值处理 (1)NULL和数字相加的问题,为避免这种情况先nvl 或者coalesce 先处理 (2)NULL 值关联时,可排除掉不参与关联,也可随机分散开避免倾斜 4.    排序优化 ...

2017-06-11 11:48:22

阅读数 808

评论数 0

一次hive reduce oom 处理:Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTas

问题: hive job失败,现象reduce失败,起了新的reduc而后还是失败,最终job失败 错误: 2017-06-07 16:43:20 INFO Examining task ID: task_*** (and more) from job job_*** 2017-06-07 16:...

2017-06-11 11:04:22

阅读数 14048

评论数 0

hive2.0 存储过程 hplsql

在hive2.0中集成了hplsql,可用用hplsql命令执行存储过程。hplsql是一个开源项目,地址:http://www.hplsql.org/home,现在集成到hive2.0了。 使用方式: hplsql -f script.sql hplsql -e "sql"...

2016-08-28 10:28:14

阅读数 6780

评论数 0

LLAP

全称: Live Long and Process (LLAP) 在hive2.0中添加了LLAP功能(HIVE-7926),文档jira 是HIVE-9850。 配置LLAP可以参考 Configuration Properties. 中的llap部分 概览 在最近几年,hive的速度有...

2016-08-28 09:58:05

阅读数 4431

评论数 3

hive源码分析--row_number源码分析

前言 row_nubmer使用说明: row_number接收到的数据是已经分区排序的数据, row_number() OVER (PARTITION BY c ORDER BY d) description = @Description( name = "row_num...

2016-08-13 19:46:54

阅读数 1887

评论数 0

hive源码分析--导入到eclipse

先去hive官网下载源代码,我现在阅读hive2.1.0 官网: http://mirrors.cnnic.cn/apache/hive/ 通过import maven工程后需要修改两个地方: 1、修改 .project hive-exec org.ecl...

2016-08-13 19:30:08

阅读数 1069

评论数 1

java线程池ThreadPoolExecutor

import java.util.concurrent.ArrayBlockingQueue; import java.util.concurrent.ThreadPoolExecutor; import java.util.concurrent.TimeUnit; public class T...

2016-03-26 23:03:05

阅读数 462

评论数 0

清除 git 上某个文件的历史

git filter-branch --force --index-filter 'git rm --cached --ignore-unmatch 文件名' --prune-empty --tag-name-filter cat -- --all git push origin master -...

2016-03-26 22:53:29

阅读数 2222

评论数 0

Spring boot 入门 实例

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法 代码块高亮 图片链接和图片上传 LaTex数学公式 UML序列图和流程图 离线写博客 导入导出Markdown文件 丰富...

2016-03-26 22:49:06

阅读数 1146

评论数 0

Spark运行架构

基本概念: Application:用户写的spark程序Driver Program:运行app的main()函数并创建SparkContextRDD Graph:RDD是Spark的数据结构,可以通过算子进行操作(Transformation和Action)。当RDD遇到Action算子时...

2015-11-28 10:40:37

阅读数 622

评论数 0

hadoop 无法查看job信息 8088无法访问

需要配置一些8088 The http address of the RM web application. yarn.resourcemanager.webapp.address ${yarn.resourcemanager.hostname}:8088

2015-09-12 23:24:33

阅读数 9736

评论数 0

hadoop2.7配置HA,使用zk和journal

本文使用前提:从noha到ha 机器分配: nn1 namenode,DFSZKFailoverController nn2 namenode,DFSZKFailoverController slave1 datanode,zookeeper,journalnode slave...

2015-08-29 13:14:46

阅读数 3579

评论数 1

hadoop做HA后,hbase修改

由于hadoop做了HA,namenode可能进行切换,hbase中的配置要做修改: hbase-site.xml中,rootdir改为和hadoop的dfs.nameservices一样, 并将hadoop的core-site.xml和hdfs-site.xml拷贝到hbase的conf下,...

2015-08-29 12:36:39

阅读数 2380

评论数 1

Python 基础语法(一)

Python 基础语法(一) Python的特点   1. 简单     Python是一种代表简单思想的语言。   2. 易学     Python有极其简单的语法。   3. 免费、开源     Python是FLOSS(自由/开放源码软件)之一。   4. 高层语言  ...

2015-08-22 13:44:09

阅读数 561

评论数 0

提示
确定要删除当前文章?
取消 删除