自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

DataFlow范式

透过技术圈百态,体会世间冷暖,树立正确的技术观、人生观、价值观和世界观

  • 博客(13)
  • 资源 (11)
  • 收藏
  • 关注

转载 Spark数据分析之第4课

#音乐推荐和Audioscrobbler数据集#1. 数据集http://www-etud.iro.umontreal.ca/~bergstrj/audioscrobbler_data.html下载具体地址为:http://www.iro.umontreal.ca/~lisa/datasets/profiledata_06-May-2005.tar.gz#1.数据user_artist...

2016-05-31 23:40:10 2308 2

原创 Hive的两个问题

Hive的几个问题:问题一:Too Many Small PartitionsIt can be tempting to partition your data into many small partitions to try to increase speed and concurrency. However, Hive functions best when data is pa

2016-05-31 21:56:10 820

转载 Spark数据分析之第3课

#连续变量的概要统计对类别变量基数相关小的数据,非常适合用Spark的countByValue动作创建直方图。但是对连续变量,比如病人记录字段匹配分数,我们想要快速得到其分布的基本统计信息,比如均值,标准差和极值(比如最大值和最小值)。除了RDD[Double]的隐式动作,Spark支持RDD[Tuple2[K,V]]类型隐式类型转换,不但提供根据每个键来汇总的groupByKey和redu...

2016-05-25 23:04:32 2528

原创 HBase在标签方面的应用

HBase常见的场景1.  半结构化或非结构化数据2.      多版本数据3.      数据需要长久存储,而且数据持续增加 场景:对契约的客户信息进行分类,比如客户基本属性(年龄,性别,身份证等),客户附加属性(比如学校,公司等),客户关系等,并且要求做到实时查询,此时我们可以使用HBase来处理。 方案:使用Sqoop将Oracle中的客户信息数据按照要求

2016-05-25 11:41:31 4570

原创 Sqoop的import和export工具的使用几种案例

Sqoop的import工具抽数的几种情况:1. Hive表无分区,全量从Oracle中抽取数据到Hive的表中sqoop import -D mapred.job.queue.name=root.myqueue    \--connect jdbc:oracle:thin:@192.168.1.128:1521:mydatabase   \--username jsz  

2016-05-25 10:25:51 11205

原创 Sqoop的import和export工具常用选项

工具通用选项import和export工具有些通用的选项,如下表所示:选项含义说明--connect 指定JDBC连接字符串--connection-manager 指定要使用的连接管理器类--driver 指定要使用的JDBC驱动类--hadoo

2016-05-25 10:10:04 1827

转载 Spark数据分析之第2课

本课主要介绍对类别变量基数相对小的数据创建直方图,比如本课中对匹配和不匹配的记录数统计。#读取HDFS文件并创建RDDscala> val rawblocks = sc.textFile("/linkage")rawblocks: org.apache.spark.rdd.RDD[String] = /linkage MapPartitionsRDD[1] at textFile at...

2016-05-24 11:52:39 991 2

原创 Hive的基本操作

Hive数据类型基础数据类型:TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY,TIMESTAMP,DECIMAL,CHAR,VARCHAR,DATE。复杂数据类型:包括ARRAY(数组),MAP(字典),STRUCT(结构体),UNION(联合体),这些复杂类型是由基础类型组成的。 ARRAY:A

2016-05-24 10:33:18 4601

原创 Hive性能优化

架构层面优化:l  分表l  合理利用中间结果集,避免查过就丢的资源浪费,减低Hadoop的IO负载l  常用复杂或低效函数尽量不用或拆分成其他实现方式,如count(distinct)l  合理设计表分区,静态分区和动态分区l  优化时一定要把握整体,单个作业最优不如整个作业最优。l  文件存储格式和压缩方式l  Hadoop本身的优化l  有些逻辑,使用系统函数

2016-05-24 10:23:10 5654 1

转载 Spark数据分析之第1课

本节课的主要内容为在Spark中使用Scala对数据进行分析,并熟悉简单的RDD相关的操作#HDFS文件:[hadoop@gpmaster ~]$ hdfs dfs -ls /linkageFound 10 items-rw-r--r--   2 hadoop supergroup   26248574 2016-05-23 20:59 /linkage/block_1.csv-rw-...

2016-05-23 22:56:46 1202 2

原创 Hive ORC和Parquet

相比传统数据库的行式存储引擎,列式存储引擎具有更高的压缩比,更少的IO操作,尤其是在数据列很多,但每次操作仅针对若干列进行查询和计算的情景,列式存储引擎的性价比更高。目前在开源实现中,最有名的列式存储引擎莫过于Parquet和ORC,并且他们都是Apache的顶级项目,在数据存储引擎方面发挥着重要的作用。本文将重点讲解ORC文件存储格式,Parquet暂不深入说明,后续抽时间整理。

2016-05-21 22:19:35 22968

原创 清理Kylin的中间存储数据(HDFS & HBase Tables)

Kylin在创建cube过程中会在HDFS上生成中间数据。另外,当我们对cube执行purge/drop/merge时,一些HBase的表可能会保留在HBase中,而这些表不再被查询,尽管Kylin会做一些自动的垃圾回收,但是它可能不会覆盖所有方面,所以需要我们能够每隔一段时间做一些离线存储的清理工作。具体步骤如下:1.     检查哪些资源需要被清理,这个操作不会删除任何内容:${KYL

2016-05-02 09:21:48 6217

原创 备份Kylin的元数据

Kylin组织它所有的元数据(包括cube descriptions and instances, projects, inverted index description and instances,jobs, tables and dictionaries)作为一个层次的文件系统。然而,Kylin使用HBase来进行存储,而不是普通的文件系统。我们可以从Kylin的配置文件kylin.

2016-05-02 09:21:34 3598

ERWin建模软件

2014年6月13号下载的ERWin建模软件

2014-06-13

eclipse.006

eclipse-jee-kepler-SR2-win32.zip.006

2014-05-11

eclipse.003

eclipse-jee-kepler-SR2-win32.zip

2014-05-11

eclipse-jee-kepler-SR2-win32.zip.002

eclipse-jee-kepler-SR2-win32.zip.002

2014-05-11

eclipse-jee-kepler-SR2-win32

eclipse-jee-kepler-SR2-win32 软件包

2014-05-11

Unix shell

Unix Shell 非常好的资料 jiangshouzhuang is a good boy!

2012-08-01

mysql的安装

mysql在多操作系统上面的的安装过程以及一些知识的介绍,

2012-07-04

wxpython python开发图形界面

wxpython python开发图形界面

2012-05-29

学习wxpython开发图形界面

wxpython 学习wxpython开发图形界面

2012-05-29

Shell.Scripts-101.Scripts.for.Linux

Linux shell for everyone

2012-05-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除