![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
栖之
all or nothing
展开
-
初识HIVE
初识HiveHive概述hive是什么?基于Hadoop、数据仓库、结构化、类SQL、MapReduce任务架构基本组成(用户接口)CLIJDBC/ODBCWeb UI元数据存储元数据是什么?存储在Hive中的数据的描述信息有哪些?表的名、表的列和分区以及属性(内部表和外部表)、表的数据所在目录存在哪儿?自带Derby。缺点:不适合多用户操作,并且数据存储目...原创 2019-03-20 18:44:14 · 108 阅读 · 0 评论 -
Hive高级应用(视图、索引、数据倾斜)
文章目录一、 视图1. 什么是视图2. 视图的特性3. 优点4. 例子二、 索引1.索引概述2. 使用场景3. 索引机制4. 如何创建索引4.1 创建、显示和删除索引4.2 创建然后构建、显示格式化(带列名称)和删除索引4.3 创建位图索引、构建、显示和删除4.4在新表中创建索引、删除4.5 创建存储为rcfile的索引4.6 创建存储为textfile的索引4.7 使用索引属性创建索引4.8 使...原创 2019-03-28 09:54:03 · 600 阅读 · 0 评论 -
Hive数据倾斜 优化等
Hive数据倾斜 优化等1、内部表和外部表的区别①导入数据语句一样(load data (local) inpath ‘’ into table tablename)②删除表时,内部表会删除表的元数据和数据,但外部表只会删元数据2、sql优化①查询中不要的column不要写②where条件判断在全表扫描的过滤③只读指定partition的数据④调整join顺序,以大表做驱动表,小表...原创 2019-03-27 20:56:00 · 513 阅读 · 0 评论 -
Azkaban 练手
文章目录一、 Command 类型1. 单一 job 示例2. 多 job 工作流 flow二、操作 HDFS 任务三、操作 MapReduce 任务一、 Command 类型1. 单一 job 示例(1) 创建 job 描述文件[tyhawk@master text]$ vi command.job输入以下内容:#command.jobtype=commandcommand...原创 2019-03-27 16:17:16 · 138 阅读 · 0 评论 -
Azkaban-安装手册
文章目录Azkaban2.5.0 安装一、Azkaban 运行模式二、Azkaban2.5.0 安装详解2.1 下载安装包2.2 上传并解压2.3 设置 MySQL 账户2.4 将azkaban sql表结构导入MySQL2.5 创建 jetty ssl配置2.6 Azkaban Web 服务器配置2.6.1 修改配置文件 azkaban.properties2.6.2 用户配置 azkaban-...原创 2019-03-27 11:39:50 · 587 阅读 · 0 评论 -
hadoop概念和组成(hdfs、yarn、mapreduce)
文章目录Hadoop概述组成1. 分布式存储系统HDFS(Hadoop Distributed File System)2. 资源管理系统YARN3. 分布式计算框架MapReduceHadoop生态圈1. Hive2. pig3. Mahout4. Hbase5. Zookeeper6. Sqoop7. Flume8. OozieHDFS概述1. 设计思想2. 主从架构解析2.1 ==namen...原创 2019-03-23 18:30:58 · 2852 阅读 · 0 评论 -
hadoop-HA高可用集群安装部署
文章目录一、 运行环境1. 软件环境2. 安装准备2.1 准备虚拟机2.2 修改主机名2.3 关闭防火墙2.4 修改主机名列表2.5 配置时间同步2.6 配置免秘钥登录2.7 安装jdk3. 安装其他组件3.1 安装zookeeper3.2 安装hadoop3.2.1 安装HDFS3.2.2 YARN修改mapred-site.xml修改yarn-site.xml修改环境变量修改全局环境变量3.2...原创 2019-03-29 18:30:10 · 1518 阅读 · 0 评论 -
Hive数据类型(join、函数、hql)
文章目录Join操作Join操作 连接数据准备 创建两张学生表(studenta、studentb) CREATE TABLE studenta(id INT,name STRING)ROW FORMAT DELIMITEDFIELDS TERMINATED BY ‘\t’;CREATE TABLE studentb(id INT,age INT)ROW FORMA...原创 2019-03-22 19:46:01 · 810 阅读 · 0 评论 -
HIVE中的文件
Hive中的文件文件压缩压缩模式为什么要压缩压缩模式评价压缩比压缩时间已经压缩的格式文件是否可以再分割可分割考虑存储在HDFS中的未压缩的文件,其大小为1GB,HDFS的块大小为128MB,所以该文件将被存储为8块,将此文件用作输入的MapReduce作业会创建1个输人分片(split,也称为“分块”。对于block,我们统一称为“块”。)每个分片都被作为一个独立map任务的输入...原创 2019-03-26 09:55:38 · 667 阅读 · 0 评论 -
HIVE中shell、hdfs、ddl、dml操作及分区分桶
文章目录在Hive中执行shell命令和hdfs命令1.执行shell命令2.执行hdfs命令DDL操作1.Hive中的数据库操作2.创建表2.1建表示例2.2内部表2.3外部表2.4分区表在Hive中执行shell命令和hdfs命令1.执行shell命令用户可以执行简单的bash shell命令,只要在命令前加上!并且以分号结尾。Hive CLI不能使用需要用户进行输入的交互式命令,而且不...原创 2019-03-22 15:44:41 · 935 阅读 · 0 评论 -
HIVE安装文档
文章目录安装前准备1 净化MySQL环境2 系统、软件版本安装hive1.上载安装包2.网络获取mysql的yum源3.查看下载源中包含的rpm包4. 安装rpm包5.获取临时密码6.设置密码7.配置hive启动并验证Hive1.启动Hive安装前准备1 净化MySQL环境【ROOT用户】检查是否安装过mysql [root@master ~]# rpm -qa | grep -i ...原创 2019-03-20 21:10:37 · 243 阅读 · 0 评论 -
hive任务优化、参数调优
文章目录一控制hive任务中的map数:如何合并小文件,减少map数?如何适当的增加map数?二、 控制hive任务的reduce数:1. Hive自己如何确定reduce数:2. 调整reduce个数方法一3. 调整reduce个数方法二4. reduce个数并不是越多越好;5. 什么情况下只有一个reduce;一控制hive任务中的map数:通常情况下,作业会通过input的目录产生一...原创 2019-03-28 10:38:38 · 5860 阅读 · 0 评论