2015年02月_帅气小马哥

12月 11月 10月 06月 02月 01月

原创 oozie-4.1.0 安装

Oozie安装一．准备默认hadoop，maven，mysql已经安装，我的hadoop是2.5.0下载oozie安装包：oozie-4.1.0.tar.gz http://mirror.bit.edu.cn/apache/oozie/ 下载ext-2.2.zip http://oozie.apache.org/docs/4.0.1/DG_QuickStart.ht

2015-02-28 11:10:37 2666

原创 hive jdbc 调用

HIVE学习总结 Hive只需要装载一台机器上，可以通过webui，console，thrift接口访问（jdbc，odbc），仅适合离线数据分析，降低数据分析成本（不用编写mapreduce）。 Hive优势1. 简单易上手，类sql的hql、2. 有大数据集的计算和扩展能力，mr作为计算引擎，hdfs作为存储系统3. 统一的

2015-02-24 15:04:47 1135

原创 Hbase Mapreduce编程

Hbase Mapreduce编程hadoop，hbase安装参考：http://blog.csdn.net/mapengbo521521/article/details/41777721hbase表创建数据插入参考：http://blog.csdn.net/mapengbo521521/article/details/43917119hbase mapreduce参考：http://

2015-02-24 12:32:14 1122 1

原创 Hbase java API 调用详解

Hbase java API 调用一． hbase的安装参考：http://blog.csdn.net/mapengbo521521/article/details/41777721二．hbase访问方式Native java api：最常规最高效的访问方式。Hbase shell：hbase的命令行工具，最简单的接口，适合管理员使用Thrift gateway：利用t

2015-02-23 18:23:30 1580

原创日志收集分析系统架构

日志收集分析系统架构一．部署架构日志收集系统一般包括如图所示三层。Web服务器层，日志收集层，日志存储层。Web服务器层是日志的来源，一般部署web应用供用户访问，产生日志，该节点上一般需要部署日志收集程序的agent。日志收集层手机web服务器产生的日志传输给日志存储层，存储层一般使用分布式文件系统HDFS,日志可以存储在hdfs上或者hbase上。以scribe作

2015-02-23 16:09:35 1877

原创 Hadoop性能调优

Hadoop性能调优 Hadoop在处理任务时性能是否足够好，这里的性能主要包括时间和空间两个指标。调优一般要注意以下几个方面： 1. 输入文件尽可能的大HDFS的默认块文件的大小为64M,假如有1000,个文件，每个文件的大小都是2.3m，那么存储这些文件需要占用1000个块，那么一共会占用64000M大小的空间，如果将这些文件合并大小为2.2G，只有36个块，占

2015-02-16 12:48:12 836

原创 hadoop 2.x 编译打包

1. 需要编译打包的代码如下： package org.apache.hadoop.examples;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;

2015-02-15 11:59:03 766

原创 KAFKA安装和使用

KAFKA安装和使用WINDOWS: 准备软件：kafka_2.11-0.8.2.0.tgz安装步骤：1. 创建目录D:\kafka，将kafka_2.11-0.8.2.0.tgz解压到该目录下，解压两份，并重命名为kafka1和kafka2.并在这两个目录下创建文件kafka1/log/logs, kafka2/log/logs2. 在D:\kaf

2015-02-11 11:49:02 1238