- 博客(15)
- 收藏
- 关注
原创 HDFS相关概念
自定义配置文件: hdfs: core-site.xml hdfs-site.xml yarn: yarn-site.xml mapreduce: mapred-site.xml默认配置文件: hdfs: core-default.xml hdfs-default.xml yarn: yarn-default.xml mapreduce: mapred-default.xml
2016-05-17 21:54:02 381
原创 Flume与Kafka集成
1、在flume目录中创建flume-kafka-tail-conf.properties文件# The configuration file needs to define the sources, # the channels and the sinks.# Sources, channels and sinks are defined per agent, # in this case
2016-05-11 00:10:16 948
原创 Kafka的安装及测试
1、zokeeper的安装及配置在zokeeper的conf目录下新建zoo.cfg文件,在里面配置如下内容# The number of milliseconds of each ticktickTime=2000# The number of ticks that the initial # synchronization phase can takeinitLimit=10# T
2016-05-10 23:22:16 4086
原创 Flume与SparkStreaming集成
1、flume创建配置文件flume-spark-tail-conf.properties```# The configuration file needs to define the sources, # the channels and the sinks.# Sources, channels and sinks are defined per agent, # in this cas
2016-05-09 23:01:56 1546 1
原创 spark之RDD
启动spark-shell bin/spark-shell --master spark://bigdata.eclipse.com:7077reduceBykey、groupBykey、sortByKey、join的使用1、reduceBykeyvar rdd = sc.textFile("/data/wc.input") val reduceBykey = rdd.flatMap(li
2016-04-16 00:02:23 403
原创 Hbase之Java API使用
maven中pom.xml配置<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <hive.version>0.13.1</hive.version> <hbase.version>0.98.6-hadoop2</hbase.version> </propert
2016-04-13 21:53:07 415
原创 Spark环境配置
与hadoop比较 Hadoop除了提供为大家所共识的HDFS分布式数据存储功能之外,还提供了叫做MapReduce的数据处理功能。 Spark数据处理速度秒杀MapReduce Spark因为其处理数据的方式不一样,会比MapReduce快上很多。MapReduce是分步对数据进行处理的: ”从集群中读取数据,进行一次处理,将结果写到集群,从集群中读取更新后的数据,进行下一次的处理,将结果写
2016-04-08 21:32:14 356
原创 Hbase使用
配置hbase-env.sh export JAVA_HOME=/opt/app/jdk1.7.0_67配置regionservers bigdata.eclipse.com配置hbase-site.xml<property > <name>hbase.tmp.dir</name> <value>/opt/app/hbase-0.98.6-hadoop2/data</valu
2016-04-07 22:24:13 403
原创 Oozie的安装
hadoop中core-site.xml配置 <!--oozie配置--><property> <name>hadoop.proxyuser.ycong.hosts</name> <value>*</value></property><property> <name>hadoop.proxyuser.ycong.groups</name> <value>*</value></
2016-04-01 23:15:08 350
原创 大数据可视化工具Hue安装使用
Hue功能 及编译 1)安装系统包yum install ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi gcc gcc-c++ krb5-devel libtidy libxml2-devel libxslt-devel openldap-devel python-devel sqlite-devel openssl-devel mysql-dev
2016-03-25 23:56:40 1567
原创 Flume实时抽取监控目录数据
Flume概述 1)Flume是一个分布式的,可靠的,可用的,非常有效率的对大数据的日志进行收集、聚集、移动信息的服务,Flume仅仅运行在linux环境下。 2)Flume是一个基于流式的简单的、灵活的架构,只需要编写三要素:source、channel、sink,然后执行一个命令即可。 3)Flume、kafka实时进行数据收集,spark、storm实时去处理,impala实时查询。
2016-03-25 22:10:44 7050 1
原创 Hive日志分析案例二
1、创建日志原始表-- create tabledrop table if exists hive_ycong.track_log ;create table hive_ycong.track_log(id string,url string,referer string,keyword s
2016-03-24 21:55:34 657
转载 hive大数据倾斜总结
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的分
2016-03-23 21:19:46 234
原创 如何每日增量加载数据到Hive分区表
创建track_log.sh文件#!/bin/sh## 环境变量生效. /etc/profile## 日志目录LOG_DIR=/data/tracklogs## 目录名称yesterday=`date -d -1day '+%Y%m%d'`##hive homeHIVE_HOME=/opt/app/cdh5.3.6/hive-0.13.1-cdh5.3.6## 循环目录for line
2016-03-22 23:48:37 2108
原创 Hadoop伪分布式环境搭建
###linux下安装JDK给jdk执行权限 chmod u + x jdk-7u67-linux-x64.tar.gz解压jdk文件 tar -zxf jdk-7u67-linux-x64.tar.gz配置环境变量 edit this file: vi /etc/profile## JAVA_HOMEexport JAVA_HOME=/home/ycong/sofewar
2016-03-20 13:42:03 245
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人