- 博客(3)
- 资源 (2)
- 收藏
- 关注
转载 Hive优化
一、介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。 sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在map端的汇总合并优化...
2019-04-16 12:05:03 198
转载 Hive概述
一、Hive介绍 Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reduc...
2019-04-16 11:30:36 258
原创 Hive安装
一、环境准备 安装好Hadoop 安装好mysql 下载Hive 二、安装配置 2.1、将hive安装包上传到linux上 2.2、解压并配置环境变量 2.3、配置hive-site.xml 在${HIVE_HOME}/conf目录下创建hive-site.xml文件配置以下内容 <?xml version="1.0" encoding="UTF-8" standalone...
2019-04-16 11:28:55 145
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人