hadoop
栖之
all or nothing
展开
-
初识HIVE
初识Hive Hive概述 hive是什么? 基于Hadoop、数据仓库、结构化、类SQL、MapReduce任务 架构 基本组成(用户接口) CLI JDBC/ODBC Web UI 元数据存储 元数据是什么? 存储在Hive中的数据的描述信息 有哪些? 表的名、表的列和分区以及属性(内部表和外部表)、表的数据所在目录 存在哪儿? 自带Derby。缺点:不适合多用户操作,并且数据存储目...原创 2019-03-20 18:44:14 · 107 阅读 · 0 评论 -
Hive高级应用(视图、索引、数据倾斜)
文章目录一、 视图1. 什么是视图2. 视图的特性3. 优点4. 例子二、 索引1.索引概述2. 使用场景3. 索引机制4. 如何创建索引4.1 创建、显示和删除索引4.2 创建然后构建、显示格式化(带列名称)和删除索引4.3 创建位图索引、构建、显示和删除4.4在新表中创建索引、删除4.5 创建存储为rcfile的索引4.6 创建存储为textfile的索引4.7 使用索引属性创建索引4.8 使...原创 2019-03-28 09:54:03 · 596 阅读 · 0 评论 -
Hive数据倾斜 优化等
Hive数据倾斜 优化等 1、内部表和外部表的区别 ①导入数据语句一样(load data (local) inpath ‘’ into table tablename) ②删除表时,内部表会删除表的元数据和数据,但外部表只会删元数据 2、sql优化 ①查询中不要的column不要写 ②where条件判断在全表扫描的过滤 ③只读指定partition的数据 ④调整join顺序,以大表做驱动表,小表...原创 2019-03-27 20:56:00 · 509 阅读 · 0 评论 -
Azkaban 练手
文章目录一、 Command 类型1. 单一 job 示例2. 多 job 工作流 flow二、操作 HDFS 任务三、操作 MapReduce 任务 一、 Command 类型 1. 单一 job 示例 (1) 创建 job 描述文件 [tyhawk@master text]$ vi command.job 输入以下内容: #command.job type=command command...原创 2019-03-27 16:17:16 · 136 阅读 · 0 评论 -
Azkaban-安装手册
文章目录Azkaban2.5.0 安装一、Azkaban 运行模式二、Azkaban2.5.0 安装详解2.1 下载安装包2.2 上传并解压2.3 设置 MySQL 账户2.4 将azkaban sql表结构导入MySQL2.5 创建 jetty ssl配置2.6 Azkaban Web 服务器配置2.6.1 修改配置文件 azkaban.properties2.6.2 用户配置 azkaban-...原创 2019-03-27 11:39:50 · 584 阅读 · 0 评论 -
hadoop概念和组成(hdfs、yarn、mapreduce)
文章目录Hadoop概述组成1. 分布式存储系统HDFS(Hadoop Distributed File System)2. 资源管理系统YARN3. 分布式计算框架MapReduceHadoop生态圈1. Hive2. pig3. Mahout4. Hbase5. Zookeeper6. Sqoop7. Flume8. OozieHDFS概述1. 设计思想2. 主从架构解析2.1 ==namen...原创 2019-03-23 18:30:58 · 2840 阅读 · 0 评论 -
hadoop-HA高可用集群安装部署
文章目录一、 运行环境1. 软件环境2. 安装准备2.1 准备虚拟机2.2 修改主机名2.3 关闭防火墙2.4 修改主机名列表2.5 配置时间同步2.6 配置免秘钥登录2.7 安装jdk3. 安装其他组件3.1 安装zookeeper3.2 安装hadoop3.2.1 安装HDFS3.2.2 YARN修改mapred-site.xml修改yarn-site.xml修改环境变量修改全局环境变量3.2...原创 2019-03-29 18:30:10 · 1514 阅读 · 0 评论 -
Hive数据类型(join、函数、hql)
文章目录Join操作 Join操作 连接数据准备 创建两张学生表(studenta、studentb) CREATE TABLE studenta( id INT, name STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t’; CREATE TABLE studentb( id INT, age INT) ROW FORMA...原创 2019-03-22 19:46:01 · 806 阅读 · 0 评论 -
HIVE中的文件
Hive中的文件 文件压缩 压缩模式 为什么要压缩 压缩模式评价 压缩比 压缩时间 已经压缩的格式文件是否可以再分割 可分割 考虑存储在HDFS中的未压缩的文件,其大小为1GB,HDFS的块大小为128MB,所以该文件将被存储为8块,将此文件用作输入的MapReduce作业会创建1个输人分片(split,也称为“分块”。对于block,我们统一称为“块”。)每个分片都被作为一个独立map任务的输入...原创 2019-03-26 09:55:38 · 665 阅读 · 0 评论 -
HIVE中shell、hdfs、ddl、dml操作及分区分桶
文章目录在Hive中执行shell命令和hdfs命令1.执行shell命令2.执行hdfs命令DDL操作1.Hive中的数据库操作2.创建表2.1建表示例2.2内部表2.3外部表2.4分区表 在Hive中执行shell命令和hdfs命令 1.执行shell命令 用户可以执行简单的bash shell命令,只要在命令前加上!并且以分号结尾。Hive CLI不能使用需要用户进行输入的交互式命令,而且不...原创 2019-03-22 15:44:41 · 930 阅读 · 0 评论 -
HIVE安装文档
文章目录安装前准备1 净化MySQL环境2 系统、软件版本安装hive1.上载安装包2.网络获取mysql的yum源3.查看下载源中包含的rpm包4. 安装rpm包5.获取临时密码6.设置密码7.配置hive启动并验证Hive1.启动Hive 安装前准备 1 净化MySQL环境 【ROOT用户】检查是否安装过mysql [root@master ~]# rpm -qa | grep -i ...原创 2019-03-20 21:10:37 · 241 阅读 · 0 评论 -
hive任务优化、参数调优
文章目录一控制hive任务中的map数:如何合并小文件,减少map数?如何适当的增加map数?二、 控制hive任务的reduce数:1. Hive自己如何确定reduce数:2. 调整reduce个数方法一3. 调整reduce个数方法二4. reduce个数并不是越多越好;5. 什么情况下只有一个reduce; 一控制hive任务中的map数: 通常情况下,作业会通过input的目录产生一...原创 2019-03-28 10:38:38 · 5812 阅读 · 0 评论