等你628-CSDN博客

原创 spark1.2配置

1、配置spark-env.shexport JAVA_HOME=/usr/jdk1.8export SCALA_HOME=/usr/scalaexport SPARK_MASTER_IP=192.168.209.131export SPARK_WORKER_MEMORY=1gexport MASTER=spark://192.168.209.131:7077export HADOOP_H

2016-07-07 13:38:25 533

转载 HBase的数据导入方式

前言:　　作为Hadoop生态系统中重要的一员, HBase作为分布式列式存储, 在线实时处理的特性, 备受瞩目, 将来能在很多应用场景, 取代传统关系型数据库的江湖地位. 本篇博文重点讲解HBase的数据导入, 描述三种方式, Client API, Bulkload, 以及Hive Over HBase.*). Client API实现借助HBase的Client API来导入, 是最简易学

2016-07-06 17:19:43 710

1 概述 HBase是一个分布式的、面向列的数据库，它和一般关系型数据库的最大区别是：HBase很适合于存储非结构化的数据，还有就是它基于列的而不是基于行的模式。既然HBase是采用KeyValue的列存储，那Rowkey就是KeyValue的Key了，表示唯一一行。Rowkey也是一段二进制码流，最大长度为64KB，内容可以由使用的用户自定义。数据加载时，一般也是根据Rowkey的二进制序由小到

2016-07-06 17:03:25 717

转载 Hbase系统架构及数据结构

HBase中的表一般有这样的特点：1 大：一个表可以有上亿行，上百万列2 面向列:面向列(族)的存储和权限控制，列(族)独立检索。3 稀疏:对于为空(null)的列，并不占用存储空间，因此，表可以设计的非常稀疏。下面一幅图是Hbase在Hadoop Ecosystem中的位置。二、逻辑视图HBase以表的形式存储数

2016-07-05 10:24:33 692

原创 hbase1.2安装配置

1）下载安装包，解压到合适位置 2）配置相关文件 1、配置hbase-env.sh文件。# The java implementation to use.export JAVA_HOME=/usr/java/jdk1.7.0/# The maximum amount of heap to use. Default is left to JVM default.export HBAS

2016-07-05 10:19:50 989

原创 hive小结

1)hive加载数据hive加载本地数据和和hdfs数据区别加载外部表可以为本地文件，加载内部表，要把数据加载到hdfs上 2）hive中索引索引 deferred 延期的 compact 紧压的 3）hive中数据格式 hive可以自定义文件格式。textfile，sequencefile 数据格式： avro file orc file ORC File,它的全名是Op

2016-07-03 18:11:35 477

原创 hive 自定义函数

1、首先定义函数 2、将函数添加到hive中

2016-06-22 23:33:59 929

原创对Hive的大表进行动态分区

分区是在处理大型事实表时常用的方法。分区的好处在于缩小查询扫描范围，从而提高速度。分区分为两种：静态分区static partition和动态分区dynamic partition。静态分区和动态分区的区别在于导入数据时，是手动输入分区名称，还是通过数据来判断数据分区。对于大数据批量导入来说，显然采用动态分区更为简单方便。对现存hive表的分区首先，新建一张我们需要的分区以后的表create

2016-06-22 23:31:08 823

原创 Hive中的InputFormat、OutputFormat与SerDe

Hive中，默认使用的是TextInputFormat，一行表示一条记录。在每条记录(一行中)，默认使用^A分割各个字段。在有些时候，我们往往面对多行，结构化的文档，并需要将其导入Hive处理，此时，就需要自定义InputFormat、OutputFormat，以及SerDe了。首先来理清这三者之间的关系，我们直接引用Hive官方说法：SerDe is a short name for “Seria

2016-06-22 23:08:54 3756

原创 Ubuntu下Hive配置（MySQL数据库的安装方式）

Hive只在一个节点上安装即可一、安装MySQL•Ubuntu 采用apt-get安装 •sudo apt-get install mysql-server •建立数据库hive •create database hive •创建hive用户,并授权 •grant all on hive.* to hive@’%’ identified by ‘hive’; •flush privi

2016-06-22 22:46:05 2497

原创 hiveQL详解

一、创建表 1.创建内部表 //create & load create table tab_ip(id int,name string,ip string,country string) row format delimited fields terminated by ‘,’ stored as textfile; 2、创建外部表 //exter

2016-06-22 11:44:46 667

原创 Hive体系结构

Hive是一种建立在hadoop上的数据仓库架构，可以用来进行数据ETL，并对存储在hdfs中的数据进行查询、分析和管理。 1、Hive架构与基本组成下面是Hive的架构图。图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分：（1）用户接口主要有三个：CLI，Client 和 WUI。其中最常用的是CLI，Cli启动的时候，会同时启动一个Hi

2016-06-22 10:34:29 2905

原创 ubuntu查看用户分组

查看用户分组：

2016-06-15 17:53:46 3550

原创 ubuntu下安装程序的三种方法

引言在ubuntu当中，安装应用程序我所知道的有三种方法，分别是apt-get，dpkg安装deb和make install安装源码包三种。下面针对每一种方法各举例来说明。apt-get方法使用apt-get install来安装应用程序算是最常见的一种安装方法了，比如我要安装build-essential这个软件，使用以下，他会帮我把所有的依赖包都一起安装了。 sudo apt-get in

2016-06-15 17:41:41 644

原创 Ubuntu两台节点无密码登录

在第一台机器上输入下面两条命令 ssh-keygen -t dsa -P ” -f ~/.ssh/id_dsascp ~/.ssh/id_dsa.pub hadoop:~/.ssh 备注：其中hadoop为第二台机器的用户名在第二台机器上输入下面命令 cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

2016-06-15 17:35:46 459

原创 ubuntu下配置环境变量

在用户主目录下，有一个 .bashrc 文件，编辑该文件： vi /.bashrc在最后边加入需要设置变量的shell语句，例如：exportPATH= /mypath/bin:vi ~/.bashrc 在最后边加入需要设置变量的shell语句，例如： export PATH=~/mypath/bin:PATH 该方式添加的变量只能当前用户使用。用命令：source ~/.bashrc

2016-06-15 17:20:07 436

原创 ubuntu下is not in the sudoers file 解决方案

如果当前用户下出现，可以切换到另外一个有该权限的用户，在该用户下输入： sudo usermod -a -G adm water3 sudo usermod -a -G sudo water3 备注：其中water3为出现问题的用户

2016-06-15 17:06:01 643

原创 ubuntu常用命令汇总

查看系统进程的信息： ps -a jps 查看java进程 top 查看进程的实时情况 free -m 查看内存使用情况网络信息：查看所有已建立连接的信息 netstat -antp 查看所有监听端口的信息： netstat -lntp 查看网络接口信息： ifconfig系统升级： sudo apt-get update临时重启一个服务：/etc/init.d/服务名

2016-06-15 16:54:47 604

原创 Ubuntu14.04安装搜狗输入法

难得搜狗输入法支持ubuntu，果断下载尝试一把。官网：http://pinyin.sogou.com/linux/ 官网教程：http://pinyin.sogou.com/linux/help.php 按照教程上面的说法，对于ubuntu14.04的系统安装搜狗输入法是异常的简单。 1. 下载deb包。 2.双击文件即可安装。按照上面的流程走了一遍，提示安装成功。首先你得安装

2016-06-15 16:49:43 668

原创 Hadoop中FileInputFormat源码解析

基于Hadoop2.6.0 //生成文件list，放进filesplits public List getSplits(JobContext job) throws IOException { Stopwatch sw = new Stopwatch().start(); long minSize = Math.max(getFormatMinSplitSize(), ge

2016-05-22 23:20:25 1224

转载 Hadoop中reduce端shuffle过程及源码解析

在Child的main函数中通过TaskUmbilicalProtocol协议，从TaskTracker获得需要执行的Task，并调用Task的run方法来执行。在ReduceTask而Task的run方法会通过java反射机制构造Reducer，Reducer.Context，然后调用构造的Reducer的run方法执行reduce操作。不同于map任务，在执行reduce任务前，需要把map的输

2016-05-22 21:20:15 3283

转载深入理解java异常处理机制

try…catch…finally恐怕是大家再熟悉不过的语句了，而且感觉用起来也是很简单，逻辑上似乎也是很容易理解。不过，我亲自体验的“教训”告诉我，这个东西可不是想象中的那么简单、听话。不信？那你看看下面的代码，“猜猜”它执行后的结果会是什么？不要往后看答案、也不许执行代码看真正答案哦。如果你的答案是正确，那么这篇文章你就不用浪费时间看啦。

2016-05-20 22:47:43 1044

原创 Hadoop中Map端shuffle过程及源码解析

分析的源码是基于Hadoop2.6.0。官网上面的MapReduce过程 Map端shuffle的过程: 在执行每个map task时，无论map方法中执行什么逻辑，最终都是要把输出写到磁盘上。如果没有reduce阶段，则直接输出到hdfs上，如果有有reduce作业，则每个map方法的输出在写磁盘前线在内存中缓存。每个map task都有一个环状的内存缓冲区，存储着map的输出结果

2016-05-20 13:18:20 25706 5