2016年04月_继续微笑lsj

转载 hive下变量的使用

Hive的变量前面有一个命名空间，包括三个hiveconf，system，env，还有一个hivevar1. hiveconf的命名空间指的是hive-site.xml下面的配置变量值。2. system的命名空间是系统的变量，包括JVM的运行环境。3. env的命名空间，是指环境变量，包括Shell环境下的变量信息，如HADOOP_HOME之类的普通的变量可

2016-04-28 21:08:57 1169

转载 hive inser into 与 hive overwrite区别

1、insert into 语句hive> insert into table userinfos2 select id,age,name from userinfos;2、insert overwrite语句hive> insert overwrite table userinfos2 select id,age,name from userinfo

2016-04-21 20:32:10 5759

转载 impala

Impala架构分析Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义，但由于Hive底层执行使用的是MapReduce引擎，仍然是一个批处理过程，难以满足查询的交互性。相比之下，Impala的最大特点也是最大卖点就是它的快速。那么Impala如何实现大数据的快

2016-04-15 23:02:22 888

Infobright是一款基于独特的专利知识网格技术的列式数据库。Infobright是开源的MySQL数据仓库解决方案，引入了列存储方案，高强度的数据压缩，优化的统计计算(类似sum/avg/group by之类)，infobright 是基于mysql的，但不装mysql亦可，因为它本身就自带了一个。mysql可以粗分为逻辑层和物理存储引擎，infobright主要实现的就是一个存储引擎，但因

2016-04-15 22:22:04 2320

转载 mysqldump

1、导出數據库為dbname的表结构（其中用戶名為root,密码為dbpasswd,生成的脚本名為db.sql） mysqldump -uroot -pdbpasswd -d dbname >db.sql; 2、导出數據库為dbname某张表(test)结构 mysqldump -uroot -pdbpasswd -d dbname test>db.sql; 3

2016-04-15 09:34:56 477

转载 Kylin正式发布：面向大数据的终极OLAP引擎方案

日前，eBay公司隆重宣布已经正式向开源业界推出分布式分析引擎：Kylin（http://kylin.io）。作为一套旨在对Hadoop环境下分析流程进行加速、且能够与SQL兼容性工具顺利协作的解决方案，Kylin成功将SQL接口与多维分析机制（OLAP）引入Hadoop，旨在对规模极为庞大的数据集加以支持。背景信息eBay公司当前面临的主要挑战在于，数据规模正随着用户群体的多样化

2016-04-14 23:43:16 1507

转载 apache kylin

京东云海是由京东和ISV共同合作的模式对商家提供服务。云海提供基础的京东POP(商家开放平台)数据，包括商品、商家、客服绩效、品牌、行业等主题数据，目前可提供T+1汇总计算结果，以及上百个实时指标订阅。ISV通过商家授权可以获取商家基础数据，ISV通过JOS的API接口上传相关维表数据，数据上传到数据仓库后，ISV可以在云海开放平台上开发相关的Hive SQL对上传数据和商家基础数据进行关联计算，

2016-04-14 23:23:47 2594

转载 JVM调优总结 -Xms -Xmx -Xmn -Xss

堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置：java -Xmx3550m -Xms355

2016-04-14 15:48:01 414

转载深入浅出数据仓库中SQL性能优化之Hive篇

一个Hive查询生成多个Map Reduce Job，一个Map Reduce Job又有Map，Reduce，Spill，Shuffle，Sort等多个阶段，所以针对Hive查询的优化可以大致分为针对MR中单个步骤的优化（其中又会有细分），针对MR全局的优化，和针对整个查询（多MR Job）的优化，下文会分别阐述。在开始之前，先把MR的流程图帖出来（摘自Hadoop权威指南

2016-04-12 10:13:29 635

转载 hive分区（partition）简介

一、背景1、在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据，因此建表时引入了partition概念。2、分区表指的是在创建表时指定的partition的分区空间。3、如果需要创建有分区的表，需要在create表的时候调用可选参数partitioned by，详见表创建的语法结构。二、技术细节

2016-04-12 09:32:28 776

转载 OLTP 和 OLAP

OLTP与OLAP的介绍数据处理大致可以分成两大类：联机事务处理OLTP（on-line transaction processing）、联机分析处理OLAP（On-Line Analytical Processing）。OLTP是传统的关系型数据库的主要应用，主要是基本的、日常的事务处理，例如银行交易。OLAP是数据仓库系统的主要应用，支持复杂的分析操作，侧重决策支持，并且提供直

2016-04-11 19:24:11 686 1

转载 SSH 免登陆

ssh 无密码登录要使用公钥与私钥。linux下可以用用ssh-keygen生成公钥/私钥对，下面我以CentOS为例。有机器A(192.168.1.155)，B(192.168.1.181)。现想A通过ssh免密码登录到B。1.在A机下生成公钥/私钥对。[chenlb@A ~]$ ssh-keygen -t rsa -P ''-P表示密码，-P '' 就表示空

2016-04-08 14:07:37 501

继续微笑lsj