自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

继续微笑lsj

欲穷千里目,更上一层楼! ————LSJ

  • 博客(12)
  • 收藏
  • 关注

转载 hive下变量的使用

Hive的变量前面有一个命名空间,包括三个hiveconf,system,env,还有一个hivevar1. hiveconf的命名空间指的是hive-site.xml下面的配置变量值。2. system的命名空间是系统的变量,包括JVM的运行环境。3. env的命名空间,是指环境变量,包括Shell环境下的变量信息,如HADOOP_HOME之类的 普通的变量可

2016-04-28 21:08:57 1169

转载 hive inser into 与 hive overwrite区别

1、insert  into 语句hive> insert into table userinfos2 select id,age,name from userinfos;2、insert overwrite语句hive> insert overwrite table userinfos2 select id,age,name from userinfo

2016-04-21 20:32:10 5759

转载 impala

Impala架构分析Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。那么Impala如何实现大数据的快

2016-04-15 23:02:22 888

转载 infobright

Infobright是一款基于独特的专利知识网格技术的列式数据库。Infobright是开源的MySQL数据仓库解决方案,引入了列存储方案,高强度的数据压缩,优化的统计计算(类似sum/avg/group by之类),infobright 是基于mysql的,但不装mysql亦可,因为它本身就自带了一个。mysql可以粗分为逻辑层和物理存储引擎,infobright主要实现的就是一个存储引擎,但因

2016-04-15 22:22:04 2320

转载 mysqldump

1、导出數據库為dbname的表结构(其中用戶名為root,密码為dbpasswd,生成的脚本名為db.sql)    mysqldump -uroot -pdbpasswd -d dbname >db.sql; 2、导出數據库為dbname某张表(test)结构    mysqldump -uroot -pdbpasswd -d dbname test>db.sql; 3

2016-04-15 09:34:56 477

转载 Kylin正式发布:面向大数据的终极OLAP引擎方案

日前,eBay公司隆重宣布已经正式向开源业界推出分布式分析引擎:Kylin(http://kylin.io)。作为一套旨在对Hadoop环境下分析流程进行加速、且能够与SQL兼容性工具顺利协作的解决方案,Kylin成功将SQL接口与多维分析机制(OLAP)引入Hadoop,旨在对规模极为庞大的数据集加以支持。背景信息eBay公司当前面临的主要挑战在于,数据规模正随着用户群体的多样化

2016-04-14 23:43:16 1507

转载 apache kylin

京东云海是由京东和ISV共同合作的模式对商家提供服务。云海提供基础的京东POP(商家开放平台)数据,包括商品、商家、客服绩效、品牌、行业等主题数据,目前可提供T+1汇总计算结果,以及上百个实时指标订阅。ISV通过商家授权可以获取商家基础数据,ISV通过JOS的API接口上传相关维表数据,数据上传到数据仓库后,ISV可以在云海开放平台上开发相关的Hive SQL对上传数据和商家基础数据进行关联计算,

2016-04-14 23:23:47 2594

转载 JVM调优总结 -Xms -Xmx -Xmn -Xss

堆大小设置JVM 中最大堆大小有三方面限制:相关操作系统的数据模型(32-bt还是64-bit)限制;系统的可用虚拟内存限制;系统的可用物理内存限制。32位系统下,一般限制在1.5G~2G;64为操作系统对内存无限制。我在Windows Server 2003 系统,3.5G物理内存,JDK5.0下测试,最大可设置为1478m。典型设置:java -Xmx3550m -Xms355

2016-04-14 15:48:01 414

转载 深入浅出数据仓库中SQL性能优化之Hive篇

一个Hive查询生成多个Map Reduce Job,一个Map Reduce Job又有Map,Reduce,Spill,Shuffle,Sort等多个阶段,所以针对Hive查询的优化可以大致分为针对MR中单个步骤的优化(其中又会有细分),针对MR全局的优化,和针对整个查询(多MR Job)的优化,下文会分别阐述。 在开始之前,先把MR的流程图帖出来(摘自Hadoop权威指南

2016-04-12 10:13:29 635

转载 hive分区(partition)简介

一、背景1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。2、分区表指的是在创建表时指定的partition的分区空间。3、如果需要创建有分区的表,需要在create表的时候调用可选参数partitioned by,详见表创建的语法结构。二、技术细节

2016-04-12 09:32:28 776

转载 OLTP  和 OLAP

OLTP与OLAP的介绍    数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直

2016-04-11 19:24:11 686 1

转载 SSH 免登陆

ssh 无密码登录要使用公钥与私钥。linux下可以用用ssh-keygen生成公钥/私钥对,下面我以CentOS为例。有机器A(192.168.1.155),B(192.168.1.181)。现想A通过ssh免密码登录到B。1.在A机下生成公钥/私钥对。[chenlb@A ~]$ ssh-keygen -t rsa -P ''-P表示密码,-P '' 就表示空

2016-04-08 14:07:37 501

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除