大数据技术
石添的编程哲学
分享更具智慧,更直击本质的编程方法,在分享中沉淀和突破自己,布道更多搬砖人!
展开
-
Hive安装
一、环境准备安装好Hadoop 安装好mysql 下载Hive二、安装配置2.1、将hive安装包上传到linux上2.2、解压并配置环境变量2.3、配置hive-site.xml在${HIVE_HOME}/conf目录下创建hive-site.xml文件配置以下内容<?xml version="1.0" encoding="UTF-8" standalone...原创 2019-04-16 11:28:55 · 147 阅读 · 0 评论 -
Hive概述
一、Hive介绍Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reduc...转载 2019-04-16 11:30:36 · 266 阅读 · 0 评论 -
Hive优化
一、介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。 sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在map端的汇总合并优化...转载 2019-04-16 12:05:03 · 204 阅读 · 0 评论