Soul Joy Hub

但行好事,莫问前程。

Kylin的cube模型

http://www.cnblogs.com/en-heng/p/5239311.html Kylin的cube模型 1. 数据仓库的相关概念 OLAP 大部分数据库系...

2016-08-31 16:25:08

阅读数 830

评论数 0

CDH5.7快速离线安装教程

http://www.6gdown.com/softedupage/60099.html一、简介CDH是cloudera公司开发的一个快速部署、高效管理Hadoop和其各种组件的一个商业化产品。主要分为两部分,分别为Cloudera Manager和CDH软件包。其中Cloudera Manage...

2016-08-30 19:45:18

阅读数 1373

评论数 0

CDH5.X完全卸载步骤

http://blog.csdn.net/wulantian/article/details/42706777//CDH5.X完全卸载步骤 # by coco # 2015-01-141. 关闭集群中的所有服务。 这个可以通过clouder manger 主页关闭集群。 2. 卸载 [root@m...

2016-08-30 19:25:56

阅读数 953

评论数 0

spark-shell用非sql API 改写 hql

当我们在spark-shell用scala写程序的时候,如何不嵌入sql来查询Hive呢?这里我们来举个例子:hql先来看下想要执行的sql,这里选用了TPC-DS中的query3: select /*+MAPJOIN(dt, item)*/ ...

2016-08-29 11:59:44

阅读数 909

评论数 0

Shell&Vim合集(更新中)

Vim替换以下命令将文中所有的字符串idiots替换成managers::1,$s/idiots/manages/g通常我们会在命令中使用%指代整个文件做为替换范围::%s/search/replace/g以下命令指定只在第5至第15行间进行替换::5,15s/dog/cat/g以下命令指定只在当...

2016-08-23 12:24:52

阅读数 297

评论数 0

BI中事实表和维度表的定义

一个典型的例子是,把逻辑业务比作一个立方体,产品维、时间维、地点维分别作为不同的坐标轴,而坐标轴的交点就是一个具体的事实。也就是说事实表是多个维度表的一个交点。而维度表是分析事实的一个窗口。        首先介绍下数据库结构中的星型结构,该结构在位于结构中心的单个事实数据表中维护数据,其它维度数...

2016-08-19 14:08:47

阅读数 1023

评论数 0

Hive 用户自定义函数 UDF,UDAF

http://blog.csdn.net/u011239443/article/details/52189986 Hive有UDF:(普通)UDF,用户自定义聚合函数(UDAF)以及用户自定义生表函数(UDTF)。它们所接受的输入和生产的输出的数据行的数量的不同的。 UDF UDF操作作用...

2016-08-16 11:01:29

阅读数 1063

评论数 0

Hadoop生态系统命令合集(更新中……)

Hive查看hive表中数据所在路径hive> describe database bak_spark_tpcds_parquet_1000; OK bak_spark_tpcds_parquet_1000 hdfs://holodesk01:8020/user/hive/wa...

2016-08-10 10:06:28

阅读数 773

评论数 0

MapReduce Join

Map Side Joinpackage MapJoin;import java.io.BufferedReader; import java.io.FileReader; import java.io.IOException; import java.net.URI; import java.u...

2016-08-08 13:58:22

阅读数 355

评论数 0

Elasticsearch初识

问题一 描述Elasticsearch中讲到的以下基本概念,并说明它们之间的区别和联系: Cluster, Node, Index, Type, Document, Shards, Segments.Cluster集群,是一组相互独立的、通过高速网络互联的计算机(Node),它们构成了一...

2016-08-07 21:37:19

阅读数 505

评论数 0

Hadoop MapReduce 二次排序

package SecondarySort;import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import java.util.Set; import java.util.StringT...

2016-08-05 15:27:37

阅读数 427

评论数 0

Spark性能优化:资源调优篇

在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资...

2016-08-05 11:51:18

阅读数 1001

评论数 0

Hadoop WritableComparator RawComparator

转自:http://blog.csdn.net/maixia24/article/details/16964655 IntWritable 实现了WritableComparable 接口, 它是Writable 和 java.lang.Comparable 接口的子类 packa...

2016-08-04 11:21:11

阅读数 433

评论数 0

MapReduce:随机生成100个小数并求最大值

自定义类在编写MapReduce的时候,自带的输入格式有时候满足不了我们的需求,这就需要自己定义InputFormat,InputSplit和RecordReader。FindMaxValueInputSplitpackage FindMaxValue;import java.io.DataInp...

2016-08-02 20:21:02

阅读数 710

评论数 0

提示
确定要删除当前文章?
取消 删除