2016年05月_DataGPT

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 Spark数据分析之第4课

#音乐推荐和Audioscrobbler数据集#1. 数据集http://www-etud.iro.umontreal.ca/~bergstrj/audioscrobbler_data.html下载具体地址为：http://www.iro.umontreal.ca/~lisa/datasets/profiledata_06-May-2005.tar.gz#1.数据user_artist...

2016-05-31 23:40:10 2308 2

原创 Hive的两个问题

Hive的几个问题:问题一：Too Many Small PartitionsIt can be tempting to partition your data into many small partitions to try to increase speed and concurrency. However, Hive functions best when data is pa

2016-05-31 21:56:10 820

#连续变量的概要统计对类别变量基数相关小的数据，非常适合用Spark的countByValue动作创建直方图。但是对连续变量，比如病人记录字段匹配分数，我们想要快速得到其分布的基本统计信息，比如均值，标准差和极值(比如最大值和最小值)。除了RDD[Double]的隐式动作，Spark支持RDD[Tuple2[K,V]]类型隐式类型转换，不但提供根据每个键来汇总的groupByKey和redu...

2016-05-25 23:04:32 2528

原创 HBase在标签方面的应用

HBase常见的场景1. 半结构化或非结构化数据2. 多版本数据3. 数据需要长久存储，而且数据持续增加场景：对契约的客户信息进行分类，比如客户基本属性(年龄，性别，身份证等)，客户附加属性(比如学校，公司等)，客户关系等，并且要求做到实时查询，此时我们可以使用HBase来处理。方案：使用Sqoop将Oracle中的客户信息数据按照要求

2016-05-25 11:41:31 4570

原创 Sqoop的import和export工具的使用几种案例

Sqoop的import工具抽数的几种情况:1. Hive表无分区，全量从Oracle中抽取数据到Hive的表中sqoop import -D mapred.job.queue.name=root.myqueue \--connect jdbc:oracle:thin:@192.168.1.128:1521:mydatabase \--username jsz

2016-05-25 10:25:51 11205

原创 Sqoop的import和export工具常用选项

工具通用选项import和export工具有些通用的选项，如下表所示：选项含义说明--connect 指定JDBC连接字符串--connection-manager 指定要使用的连接管理器类--driver 指定要使用的JDBC驱动类--hadoo

2016-05-25 10:10:04 1827

转载 Spark数据分析之第2课

本课主要介绍对类别变量基数相对小的数据创建直方图，比如本课中对匹配和不匹配的记录数统计。#读取HDFS文件并创建RDDscala> val rawblocks = sc.textFile("/linkage")rawblocks: org.apache.spark.rdd.RDD[String] = /linkage MapPartitionsRDD[1] at textFile at...

2016-05-24 11:52:39 991 2

原创 Hive的基本操作

Hive数据类型基础数据类型：TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY,TIMESTAMP,DECIMAL,CHAR,VARCHAR,DATE。复杂数据类型：包括ARRAY(数组),MAP(字典),STRUCT(结构体),UNION(联合体)，这些复杂类型是由基础类型组成的。 ARRAY：A

2016-05-24 10:33:18 4601

原创 Hive性能优化

架构层面优化：l 分表l 合理利用中间结果集，避免查过就丢的资源浪费，减低Hadoop的IO负载l 常用复杂或低效函数尽量不用或拆分成其他实现方式，如count(distinct)l 合理设计表分区，静态分区和动态分区l 优化时一定要把握整体，单个作业最优不如整个作业最优。l 文件存储格式和压缩方式l Hadoop本身的优化l 有些逻辑，使用系统函数

2016-05-24 10:23:10 5654 1

转载 Spark数据分析之第1课

本节课的主要内容为在Spark中使用Scala对数据进行分析，并熟悉简单的RDD相关的操作#HDFS文件:[hadoop@gpmaster ~]$ hdfs dfs -ls /linkageFound 10 items-rw-r--r-- 2 hadoop supergroup 26248574 2016-05-23 20:59 /linkage/block_1.csv-rw-...

2016-05-23 22:56:46 1202 2

原创 Hive ORC和Parquet

相比传统数据库的行式存储引擎，列式存储引擎具有更高的压缩比，更少的IO操作，尤其是在数据列很多，但每次操作仅针对若干列进行查询和计算的情景，列式存储引擎的性价比更高。目前在开源实现中，最有名的列式存储引擎莫过于Parquet和ORC，并且他们都是Apache的顶级项目，在数据存储引擎方面发挥着重要的作用。本文将重点讲解ORC文件存储格式，Parquet暂不深入说明，后续抽时间整理。

2016-05-21 22:19:35 22968

原创清理Kylin的中间存储数据(HDFS & HBase Tables)

Kylin在创建cube过程中会在HDFS上生成中间数据。另外，当我们对cube执行purge/drop/merge时，一些HBase的表可能会保留在HBase中，而这些表不再被查询，尽管Kylin会做一些自动的垃圾回收，但是它可能不会覆盖所有方面，所以需要我们能够每隔一段时间做一些离线存储的清理工作。具体步骤如下：1. 检查哪些资源需要被清理，这个操作不会删除任何内容：${KYL

2016-05-02 09:21:48 6217

原创备份Kylin的元数据

Kylin组织它所有的元数据(包括cube descriptions and instances, projects, inverted index description and instances,jobs, tables and dictionaries)作为一个层次的文件系统。然而，Kylin使用HBase来进行存储，而不是普通的文件系统。我们可以从Kylin的配置文件kylin.

2016-05-02 09:21:34 3598