自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 spark1.2配置

1、配置spark-env.shexport JAVA_HOME=/usr/jdk1.8export SCALA_HOME=/usr/scalaexport SPARK_MASTER_IP=192.168.209.131export SPARK_WORKER_MEMORY=1gexport MASTER=spark://192.168.209.131:7077export HADOOP_H

2016-07-07 13:38:25 481

转载 HBase的数据导入方式

前言:  作为Hadoop生态系统中重要的一员, HBase作为分布式列式存储, 在线实时处理的特性, 备受瞩目, 将来能在很多应用场景, 取代传统关系型数据库的江湖地位. 本篇博文重点讲解HBase的数据导入, 描述三种方式, Client API, Bulkload, 以及Hive Over HBase.*). Client API实现 借助HBase的Client API来导入, 是最简易学

2016-07-06 17:19:43 642

转载 HBase的RowKey设计

1 概述 HBase是一个分布式的、面向列的数据库,它和一般关系型数据库的最大区别是:HBase很适合于存储非结构化的数据,还有就是它基于列的而不是基于行的模式。既然HBase是采用KeyValue的列存储,那Rowkey就是KeyValue的Key了,表示唯一一行。Rowkey也是一段二进制码流,最大长度为64KB,内容可以由使用的用户自定义。数据加载时,一般也是根据Rowkey的二进制序由小到

2016-07-06 17:03:25 659

转载 Hbase系统架构及数据结构

HBase中的表一般有这样的特点:1 大:一个表可以有上亿行,上百万列2 面向列:面向列(族)的存储和权限控制,列(族)独立检索。3 稀疏:对于为空(null)的列,并不占用存储空间,因此,表可以设计的非常稀疏。下面一幅图是Hbase在Hadoop Ecosystem中的位置。二、逻辑视图HBase以表的形式存储数

2016-07-05 10:24:33 603

原创 hbase1.2安装配置

1)下载安装包,解压到合适位置 2)配置相关文件 1、配置hbase-env.sh文件。# The java implementation to use.export JAVA_HOME=/usr/java/jdk1.7.0/# The maximum amount of heap to use. Default is left to JVM default.export HBAS

2016-07-05 10:19:50 939

原创 hive小结

1)hive加载数据hive加载本地数据和和hdfs数据区别 加载外部表可以为本地文件,加载内部表,要把数据加载到hdfs上 2)hive中索引 索引 deferred 延期的 compact 紧压的 3)hive中数据格式 hive可以自定义文件格式。textfile,sequencefile 数据格式: avro file orc file ORC File,它的全名是Op

2016-07-03 18:11:35 426

原创 hive 自定义函数

1、首先定义函数 2、将函数添加到hive中

2016-06-22 23:33:59 872

原创 对Hive的大表进行动态分区

分区是在处理大型事实表时常用的方法。分区的好处在于缩小查询扫描范围,从而提高速度。分区分为两种:静态分区static partition和动态分区dynamic partition。静态分区和动态分区的区别在于导入数据时,是手动输入分区名称,还是通过数据来判断数据分区。对于大数据批量导入来说,显然采用动态分区更为简单方便。 对现存hive表的分区 首先,新建一张我们需要的分区以后的表create

2016-06-22 23:31:08 778

原创 Hive中的InputFormat、OutputFormat与SerDe

Hive中,默认使用的是TextInputFormat,一行表示一条记录。在每条记录(一行中),默认使用^A分割各个字段。在有些时候,我们往往面对多行,结构化的文档,并需要将其导入Hive处理,此时,就需要自定义InputFormat、OutputFormat,以及SerDe了。首先来理清这三者之间的关系,我们直接引用Hive官方说法:SerDe is a short name for “Seria

2016-06-22 23:08:54 3645

原创 Ubuntu下Hive配置(MySQL数据库的安装方式)

Hive只在一个节点上安装即可一、安装MySQL•Ubuntu 采用apt-get安装 •sudo apt-get install mysql-server •建立数据库hive •create database hive •创建hive用户,并授权 •grant all on hive.* to hive@’%’ identified by ‘hive’; •flush privi

2016-06-22 22:46:05 2439

原创 hiveQL详解

一、创建表 1.创建内部表 //create & load create table tab_ip(id int,name string,ip string,country string) row format delimited fields terminated by ‘,’ stored as textfile; 2、创建外部表 //exter

2016-06-22 11:44:46 615

原创 Hive体系结构

Hive是一种建立在hadoop上的数据仓库架构,可以用来进行数据ETL,并对存储在hdfs中的数据进行查询、分析和管理。 1、Hive架构与基本组成 下面是Hive的架构图。 图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分: (1)用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是CLI,Cli启动的时候,会同时启动一个Hi

2016-06-22 10:34:29 2796 1

原创 ubuntu查看用户分组

查看用户分组:

2016-06-15 17:53:46 3454

原创 ubuntu下安装程序的三种方法

引言在ubuntu当中,安装应用程序我所知道的有三种方法,分别是apt-get,dpkg安装deb和make install安装源码包三种。下面针对每一种方法各举例来说明。apt-get方法 使用apt-get install来安装应用程序算是最常见的一种安装方法了,比如我要安装build-essential这个软件,使用以下,他会帮我把所有的依赖包都一起安装了。 sudo apt-get in

2016-06-15 17:41:41 606

原创 Ubuntu两台节点无密码登录

在第一台机器上输入下面两条命令 ssh-keygen -t dsa -P ” -f ~/.ssh/id_dsascp ~/.ssh/id_dsa.pub hadoop:~/.ssh 备注:其中hadoop为第二台机器的用户名 在第二台机器上输入下面命令 cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

2016-06-15 17:35:46 411

原创 ubuntu下配置环境变量

在用户主目录下,有一个 .bashrc 文件,编辑该文件: vi /.bashrc在最后边加入需要设置变量的shell语句,例如:exportPATH= /mypath/bin:vi ~/.bashrc 在最后边加入需要设置变量的shell语句,例如: export PATH=~/mypath/bin:PATH 该方式添加的变量只能当前用户使用。用命令:source ~/.bashrc

2016-06-15 17:20:07 397

原创 ubuntu下is not in the sudoers file 解决方案

如果当前用户下出现,可以切换到另外一个有该权限的用户,在该用户下输入: sudo usermod -a -G adm water3 sudo usermod -a -G sudo water3 备注:其中water3为出现问题的用户

2016-06-15 17:06:01 613

原创 ubuntu常用命令汇总

查看系统进程的信息: ps -a jps 查看java进程 top 查看进程的实时情况 free -m 查看内存使用情况网络信息: 查看所有已建立连接的信息 netstat -antp 查看所有监听端口的信息: netstat -lntp 查看网络接口信息: ifconfig系统升级: sudo apt-get update临时重启一个服务:/etc/init.d/服务名

2016-06-15 16:54:47 500

原创 Ubuntu14.04安装搜狗输入法

难得搜狗输入法支持ubuntu,果断下载尝试一把。 官网:http://pinyin.sogou.com/linux/ 官网教程:http://pinyin.sogou.com/linux/help.php 按照教程上面的说法,对于ubuntu14.04的系统安装搜狗输入法是异常的简单。 1. 下载deb包。 2.双击文件即可安装。 按照上面的流程走了一遍,提示安装成功。 首先你得安装

2016-06-15 16:49:43 629

原创 Hadoop中FileInputFormat源码解析

基于Hadoop2.6.0 //生成文件list,放进filesplits public List getSplits(JobContext job) throws IOException { Stopwatch sw = new Stopwatch().start(); long minSize = Math.max(getFormatMinSplitSize(), ge

2016-05-22 23:20:25 1173

转载 Hadoop中reduce端shuffle过程及源码解析

在Child的main函数中通过TaskUmbilicalProtocol协议,从TaskTracker获得需要执行的Task,并调用Task的run方法来执行。在ReduceTask而Task的run方法会通过java反射机制构造Reducer,Reducer.Context,然后调用构造的Reducer的run方法执行reduce操作。不同于map任务,在执行reduce任务前,需要把map的输

2016-05-22 21:20:15 3173

转载 深入理解java异常处理机制

try…catch…finally恐怕是大家再熟悉不过的语句了,而且感觉用起来也是很简单,逻辑上似乎也是很容易理解。不过,我亲自体验的“教训”告诉我,这个东西可不是想象中的那么简单、听话。不信?那你看看下面的代码,“猜猜”它执行后的结果会是什么?不要往后看答案、也不许执行代码看真正答案哦。如果你的答案是正确,那么这篇文章你就不用浪费时间看啦。

2016-05-20 22:47:43 1017

原创 Hadoop中Map端shuffle过程及源码解析

分析的源码是基于Hadoop2.6.0。 官网上面的MapReduce过程 Map端shuffle的过程: 在执行每个map task时,无论map方法中执行什么逻辑,最终都是要把输出写到磁盘上。如果没有reduce阶段,则直接输出到hdfs上,如果有有reduce作业,则每个map方法的输出在写磁盘前线在内存中缓存。每个map task都有一个环状的内存缓冲区,存储着map的输出结果

2016-05-20 13:18:20 25422 5

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除