小象仙人球-CSDN博客

原创 HDFS相关概念

自定义配置文件： hdfs： core-site.xml hdfs-site.xml yarn： yarn-site.xml mapreduce: mapred-site.xml默认配置文件： hdfs： core-default.xml hdfs-default.xml yarn： yarn-default.xml mapreduce: mapred-default.xml

2016-05-17 21:54:02 381

原创 Flume与Kafka集成

1、在flume目录中创建flume-kafka-tail-conf.properties文件# The configuration file needs to define the sources, # the channels and the sinks.# Sources, channels and sinks are defined per agent, # in this case

2016-05-11 00:10:16 948

原创 Kafka的安装及测试

1、zokeeper的安装及配置在zokeeper的conf目录下新建zoo.cfg文件，在里面配置如下内容# The number of milliseconds of each ticktickTime=2000# The number of ticks that the initial # synchronization phase can takeinitLimit=10# T

2016-05-10 23:22:16 4086

原创 Flume与SparkStreaming集成

1、flume创建配置文件flume-spark-tail-conf.properties```# The configuration file needs to define the sources, # the channels and the sinks.# Sources, channels and sinks are defined per agent, # in this cas

2016-05-09 23:01:56 1546 1

原创 spark之RDD

启动spark-shell bin/spark-shell --master spark://bigdata.eclipse.com:7077reduceBykey、groupBykey、sortByKey、join的使用1、reduceBykeyvar rdd = sc.textFile("/data/wc.input") val reduceBykey = rdd.flatMap(li

2016-04-16 00:02:23 403

原创 Hbase之Java API使用

maven中pom.xml配置<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <hive.version>0.13.1</hive.version> <hbase.version>0.98.6-hadoop2</hbase.version> </propert

2016-04-13 21:53:07 415

原创 Spark环境配置

与hadoop比较 Hadoop除了提供为大家所共识的HDFS分布式数据存储功能之外，还提供了叫做MapReduce的数据处理功能。 Spark数据处理速度秒杀MapReduce Spark因为其处理数据的方式不一样，会比MapReduce快上很多。MapReduce是分步对数据进行处理的: ”从集群中读取数据，进行一次处理，将结果写到集群，从集群中读取更新后的数据，进行下一次的处理，将结果写

2016-04-08 21:32:14 356

原创 Hbase使用

配置hbase-env.sh export JAVA_HOME=/opt/app/jdk1.7.0_67配置regionservers bigdata.eclipse.com配置hbase-site.xml<property > <name>hbase.tmp.dir</name> <value>/opt/app/hbase-0.98.6-hadoop2/data</valu

2016-04-07 22:24:13 403

原创 Oozie的安装

hadoop中core-site.xml配置 <property> <name>hadoop.proxyuser.ycong.hosts</name> <value>*</value></property><property> <name>hadoop.proxyuser.ycong.groups</name> <value>*</value></

2016-04-01 23:15:08 350

原创大数据可视化工具Hue安装使用

Hue功能及编译 1）安装系统包yum install ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi gcc gcc-c++ krb5-devel libtidy libxml2-devel libxslt-devel openldap-devel python-devel sqlite-devel openssl-devel mysql-dev

2016-03-25 23:56:40 1567

原创 Flume实时抽取监控目录数据

Flume概述 1）Flume是一个分布式的，可靠的，可用的，非常有效率的对大数据的日志进行收集、聚集、移动信息的服务，Flume仅仅运行在linux环境下。 2）Flume是一个基于流式的简单的、灵活的架构，只需要编写三要素：source、channel、sink，然后执行一个命令即可。 3）Flume、kafka实时进行数据收集，spark、storm实时去处理，impala实时查询。

2016-03-25 22:10:44 7050 1

原创 Hive日志分析案例二

1、创建日志原始表-- create tabledrop table if exists hive_ycong.track_log ;create table hive_ycong.track_log(id string,url string,referer string,keyword s

2016-03-24 21:55:34 657

在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的reduce输出，所以如何将数据均匀的分

2016-03-23 21:19:46 234

原创如何每日增量加载数据到Hive分区表

创建track_log.sh文件#!/bin/sh## 环境变量生效. /etc/profile## 日志目录LOG_DIR=/data/tracklogs## 目录名称yesterday=`date -d -1day '+%Y%m%d'`##hive homeHIVE_HOME=/opt/app/cdh5.3.6/hive-0.13.1-cdh5.3.6## 循环目录for line

2016-03-22 23:48:37 2108

原创 Hadoop伪分布式环境搭建

###linux下安装JDK给jdk执行权限 chmod u + x jdk-7u67-linux-x64.tar.gz解压jdk文件 tar -zxf jdk-7u67-linux-x64.tar.gz配置环境变量 edit this file: vi /etc/profile## JAVA_HOMEexport JAVA_HOME=/home/ycong/sofewar

2016-03-20 13:42:03 245

yangcongyangling的博客