
Hive
shayuwei
永远年轻,永远热泪盈眶。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
20190328-几种数据清洗的方法
清洗有缺失的行(存在空值、null值等) 源数据 [yao@master data]$ head -2 tmall-201412-1w.csv 13764633023 2014-12-01 02:20:42.000 全视目Allseelook 原宿风暴显色美瞳彩色隐形艺术眼镜1片 拍2包邮 33.6 2 18067781305 13377918580 2014-12-17 08:10:25....原创 2019-03-28 21:07:47 · 3922 阅读 · 0 评论 -
Azkaban 实战演示
启动Azkaban 使开始的程序在后台运行 启动Azkaban Web 服务器 [yao@master azkaban-web-2.5.0]$ nohup bin/azkaban-web-start.sh> log.log 2>&1 & [1] 22591 启动 Azkaban executor 执行服务器 [yao@master azkaban-execu...原创 2019-03-27 16:32:58 · 293 阅读 · 0 评论 -
sqoop的导入和导出
文章目录import从MySQL导入到HDFS从MySQL导入到Hiveexport从HDFS导出到MySQL从Hive导出到MySQL import sqoop的命令 [yao@master ~]$ sqoop help Available commands: codegen Generate code to interact with database reco...原创 2019-03-26 21:24:02 · 361 阅读 · 0 评论 -
基于Hadoop-2.7.7的sqoop-1.4.6安装文档
1 准备安装包 2 解压安装包 上传安装包 解压安装包 [yao@master ~]$ tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 3 复制sqoop-env.sh文件 把解压后的安装目录下的conf目录中的sqoop-env-templete.sh 复制到sqoop-env.sh [yao@master sqoop-1....原创 2019-03-26 16:21:43 · 610 阅读 · 0 评论 -
Hive(5)高级应用
视图 逻辑窗口、视图 特性 只有逻辑视图,没有物化视图 视图只能查询,不能load/insert数据 视图在创建的时候,只是保存了一份元数据,当查询视图的时候,才开始执行视图对应的那些子查询 优点 通过引入视图机制,用户可以将注意力集中在其关心的数据上(而非全部数据),这样就大大提高了用户效率与用户满意度,而且如果这些数据来源于多个基本表结构,或者数据不仅来自于基本表结构,还有一部分...原创 2019-03-26 15:54:11 · 471 阅读 · 0 评论 -
Hive(3)高级操作
文章目录Join操作连接数据准备1 内连接 JOIN2 外连接 OUTER JOIN3 左半连接 LEFT SEMI数据类型原子数据类型复杂数据类型复杂数据类型实例1.array2.MAP3.struct函数内置函数自定义函数Json数据解析1.内置函数2.自定义函数Hive Shell Join操作 连接数据准备 数据准备 [yao@master data]$ vim studenta.tx...原创 2019-03-23 16:57:44 · 276 阅读 · 0 评论 -
20190321-分区和分桶
文章目录动态分区表1 包含动态分区的字段的表2 关闭严格分区模式3 创建带有分区的表分桶1.实例2 第一个失败的分桶3 第二个分桶4 重点5 总结6 分桶的查询7 数据分桶存在的一些缺陷既分区又分桶 动态分区表 1 包含动态分区的字段的表 准备数据 5 男 16 北京 13754554587 2015-03-24 6 女 17 北京 13872374170 2017-02-20 2 女 16 ...原创 2019-03-22 18:18:34 · 351 阅读 · 0 评论 -
Hive(2)基本操作
文章目录1 在Hive中执行shell命令和hdfs命令执行shell命令执行hdfs命令2 DDL操作1.Hive中的数据库2.创建表3.修改表3 DML操作1.加载数据2.导出数据3.查询数据3.1 简单查询3.2 复杂查询 登录Hadoop和Hive [yao@master ~]$ start-all.sh This script is Deprecated. Instead use sta...原创 2019-03-22 18:17:41 · 400 阅读 · 0 评论 -
Hive(1)初识Hive
Hive概述 hive是什么? 基于Hadoop、数据仓库、结构化、类SQL、MapReduce任务 架构 基本组成(用户接口) CLI:是一个和Hive通过命令行交互的接口。 thrift server(JDBC/ODBC):提供了可以从不同编程语言编写的客户端访问Hive的接口,支持身份验证和多用户并发访问。 Web UIHive Web Interface):Web接口,可以通过浏...原创 2019-03-22 18:16:34 · 282 阅读 · 0 评论 -
基于Hadoop-2.7.7、MySQL5.7的Hive安装文档
文章目录1 上传安装包2 安装MySql2.1 净化MySQL环境2.1.1 检查是否安装过mysql2.1.2 分别卸载2.1.3 删除MySQL相应文件2.2 安装MySQL2.2.1 下载MySQL的yum源2.2.2 查看下载源中包含的rpm包2.2.3 安装rpm包2.2.4 安装MySQL2.2.5 获取临时密码2.2.6 设置密码2.3 配置MySQL2.3.1 创建数据库2.3.2...原创 2019-03-22 18:15:41 · 1377 阅读 · 0 评论 -
Hive(4)Hive中的文件
文件压缩 压缩模式 1.为什么要压缩 在Hive中对中间数据或最终数据做压缩,是提高数据吞吐量和性能的一种手段。对数据做压缩,可以大量减少磁盘的存储空间,比如基于文本的数据文件,可以将文件压缩40%或更多。同时压缩后的文件在磁盘间传输和I/O也会大大减少;当然压缩和解压缩也会带来额外的CPU开销,但是却可以节省更多的I/O和使用更少的内存开销。 2.压缩模式评价 压缩比 压缩比越高,压缩后文件越...原创 2019-03-25 17:48:52 · 666 阅读 · 0 评论 -
Hive任务优化、参数调优
文章目录一、 控制hive任务中的map数:如何合并小文件,减少map数?如何适当的增加map数?二、 控制hive任务的reduce数:1. Hive自己如何确定reduce数:2. 调整reduce个数方法一3. 调整reduce个数方法二4. reduce个数并不是越多越好;5. 什么情况下只有一个reduce;三、 hive参数调优1. Map Reduce数量相关2. 执行计划相关3....转载 2019-03-28 22:01:05 · 1445 阅读 · 0 评论