- 博客(8)
- 资源 (6)
- 收藏
- 关注
原创 oozie-4.1.0 安装
Oozie安装一.准备默认hadoop,maven,mysql已经安装,我的hadoop是2.5.0下载oozie安装包:oozie-4.1.0.tar.gz http://mirror.bit.edu.cn/apache/oozie/ 下载ext-2.2.zip http://oozie.apache.org/docs/4.0.1/DG_QuickStart.ht
2015-02-28 11:10:37 2666
原创 hive jdbc 调用
HIVE学习总结 Hive只需要装载一台机器上,可以通过webui,console,thrift接口访问(jdbc,odbc),仅适合离线数据分析,降低数据分析成本(不用编写mapreduce)。 Hive优势1. 简单易上手,类sql的hql、2. 有大数据集的计算和扩展能力,mr作为计算引擎,hdfs作为存储系统3. 统一的
2015-02-24 15:04:47 1135
原创 Hbase Mapreduce编程
Hbase Mapreduce编程hadoop,hbase安装参考:http://blog.csdn.net/mapengbo521521/article/details/41777721hbase表创建数据插入参考:http://blog.csdn.net/mapengbo521521/article/details/43917119hbase mapreduce参考:http://
2015-02-24 12:32:14 1122 1
原创 Hbase java API 调用详解
Hbase java API 调用一. hbase的安装参考:http://blog.csdn.net/mapengbo521521/article/details/41777721二.hbase访问方式Native java api:最常规最高效的访问方式。Hbase shell:hbase的命令行工具,最简单的接口,适合管理员使用Thrift gateway:利用t
2015-02-23 18:23:30 1580
原创 日志收集分析系统架构
日志收集分析系统架构 一.部署架构 日志收集系统一般包括如图所示三层。Web服务器层,日志收集层,日志存储层。Web服务器层是日志的来源,一般部署web应用供用户访问,产生日志,该节点上一般需要部署日志收集程序的agent。日志收集层手机web服务器产生的日志传输给日志存储层,存储层一般使用分布式文件系统HDFS,日志可以存储在hdfs上或者hbase上。以scribe作
2015-02-23 16:09:35 1877
原创 Hadoop性能调优
Hadoop性能调优 Hadoop在处理任务时性能是否足够好,这里的性能主要包括时间和空间两个指标。调优一般要注意以下几个方面: 1. 输入文件尽可能的大HDFS的默认块文件的大小为64M,假如有1000,个文件,每个文件的大小都是2.3m,那么存储这些文件需要占用1000个块,那么一共会占用64000M大小的空间,如果将这些文件合并大小为2.2G,只有36个块,占
2015-02-16 12:48:12 836
原创 hadoop 2.x 编译打包
1. 需要编译打包的代码如下: package org.apache.hadoop.examples;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;
2015-02-15 11:59:03 766
原创 KAFKA安装和使用
KAFKA安装和使用WINDOWS: 准备软件:kafka_2.11-0.8.2.0.tgz安装步骤:1. 创建目录D:\kafka,将kafka_2.11-0.8.2.0.tgz解压到该目录下,解压两份,并重命名为kafka1和kafka2.并在这两个目录下创建文件kafka1/log/logs, kafka2/log/logs2. 在D:\kaf
2015-02-11 11:49:02 1238
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人