- 博客(15)
- 资源 (3)
- 收藏
- 关注
原创 Phoenix
一、Phoenix的安装编译修改pom->针对于Apache版本 <hbase.version>0.98.6-hadoop2</hbase.version> <hadoop-two.version>2.5.0</hadoop-two.version>针对CDH版本:需要添加CDH源解压源码包,进入路径,进行编译 mvn clean package -DskipTests编译完成
2016-12-22 11:01:35 497
原创 HBase高级
一、hbase中的常见属性 VERSIONS:指版本数 MIN_VERSIONS=> '0':最小版本数 TTL=> 'FOREVER':版本存活时间 假设versions=10,mini_version=4 到达TTL时间后,version-mini_version=6,最老的6个版本的值
2016-12-22 09:45:19 2979
原创 HBaseAPI使用,分布式搭建,多Master
一、hbase Java client添加maven依赖<dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</artifactId> <version>0.98.6-hadoop2</version></dependency><dependency> <groupId>org.apac
2016-12-21 22:07:13 1174
原创 HBase安装及简单使用
一、HBase伪分布式安装依赖 hdfs:启动hdfszookeeper:bin/zkServer.sh start下载解压 tar -zxvf hbase-0.98.6-hadoop2-bin.tar.gz -C /opt/modules/ conf/zoo.cfg 将conf/zoo.cfg 中的dataDir的目录修改为:dataDir=/opt/modules/zoo
2016-12-12 22:05:25 774
原创 Hue使用(Apache Hadoop UI系统)
一、Hue的安装部署Hue版本:cdh5.3.6-hue-3.7.0需要编译才能使用需要联网依赖(针对不同Linux版本) antasciidoccyrus-sasl-develcyrus-sasl-gssapigccgcc-c++krb5-devellibtidy (for unit tests only)libxml2-devellibxslt-develmvn (
2016-12-09 22:10:37 10477 2
原创 Oozie实例
一、运行官方实例 解压Oozie目录下的oozie-examples.tar.gz tar -zxvf oozie-examples.tar.gz解压完成后会创建一个examples文件夹将程序上传到HDFS的家目录 bin/hdfs dfs -put /opt/cdh-5.3.6/oozie-4.0.0-cdh5.3.6/examples examples运行官方mapreduce修改j
2016-12-09 16:57:57 5022
原创 Oozie 安装部署
-》主要是oozie server的部署 -》oozie-4.0.0 http://oozie.apache.org/ ext-2.2.zip是ExtJS2.2包用于Oozie的Web控制下载解压tar -zxvf oozie-4.0.0-cdh5.3.6.tar.gz -C /opt/cdh-5.3.6/配置hadoop的代理core-site.xml <!-
2016-12-09 10:44:35 1041
原创 Flume
Flume Agent Flume Agent的配置被存储在一个本地配置文件,这是一个根据java属性文件格式的文本文件,在这个配置文件中,包括了对source、channel、sink的属性配置,和其相关联形成数据流的配置。 Flume Agent实时监控端口,收集数据,将其以日志的形式打印在控制台。 一个source可以分发到多个channel,一个sink取一个chann
2016-12-04 21:52:28 1408
原创 Flume安装及GitHub使用
一、Flume的安装部署下载解压tar -zxvf flume-ng-1.5.0-cdh5.3.6.tar.gz -C /opt/cdh-5.3.6/重命名mv apache-flume-1.5.0-cdh5.3.6-bin flume-1.5.0-cdh5.3.6-bin修改配置文件 flume-env.sh.template 重命名为 flume-env.sh export JAV
2016-12-04 20:31:01 1212
原创 论坛案例分析及扩展(三)
数据分析流程上传文件 把日志数据上传到HDFS中进行处理,可以分为以下几种情况: 如果是日志服务器数据较小、压力较小,可以直接使用shell命令把数据上传到HDFS中;如果是日志服务器数据较大、压力较大,使用NFS在另一台服务器上上传数据;如果日志服务器非常多、数据量大,使用flume进行数据处理;数据清洗 使用Mapreduce对HDFS中的原始数据进行清洗,以便后续进行统计分析;
2016-12-04 19:36:01 1000
原创 网站流量日志复杂分析(二)
要求: 字段解释: 创建表:DROP TABLE IF EXISTS yhd_log_parquet ;CREATE TABLE yhd_log_parquet(id string,url string,referer string,keyword
2016-12-04 10:35:56 1052
原创 Hive日志分析案例(一)
例如: 在实际的项目中,需要分析网站服务器的日志文件数据 需求: 统计每日六项指标 浏览量PV、访客数UV、IP数、跳出率、平均访问时长、转化次数 分析: -1,原日志文件数据 job-mr 清洗:MapReduce hdfs-files -2,H
2016-12-03 21:46:08 5187 2
原创 Snappy压缩
创建路径及上传数据 不设置压缩运行: bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0-cdh5.3.6.jar \ wordcount mapreduce/wordcount/input mapreduce/wordcount/output 设置压缩运行: bin/yarn jar \ share/
2016-12-03 17:30:00 657
原创 Sqoop配置使用
SQOOP:底层是Mapreduce,利用Mapreduce加快数据传输速度,批处理方式进行数据传输,并且只有Map Task任务。 Sqoop Client:命令行 Sqoop安装安装 解压:tar -zxf sqoop-1.4.5-cdh5.3.6.tar.gz -C /opt/cdh-5.3.6/sqoop-env-template.sh –》sqoop-env.shexport
2016-12-03 17:08:22 3304
原创 Hive使用脚本加载数据
方式一:直接写在脚本中load_track_logs.sh:#!/bin/sh## 环境变量生效. /etc/profile## HIVE HOMEHIVE_HOME=/opt/cdh-5.3.6/hive-0.13.1-cdh5.3.6## 日志目录LOG_DIR=/datas/tracklogs## 获取昨天的日期yesterday=`date -d -1days '+%Y%m%d'`
2016-12-03 16:38:57 1879
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人