
Hive
shayuwei
永远年轻,永远热泪盈眶。
展开
-
20190328-几种数据清洗的方法
清洗有缺失的行(存在空值、null值等)源数据[yao@master data]$ head -2 tmall-201412-1w.csv 13764633023 2014-12-01 02:20:42.000 全视目Allseelook 原宿风暴显色美瞳彩色隐形艺术眼镜1片 拍2包邮 33.6 2 1806778130513377918580 2014-12-17 08:10:25....原创 2019-03-28 21:07:47 · 3912 阅读 · 0 评论 -
Azkaban 实战演示
启动Azkaban使开始的程序在后台运行启动Azkaban Web 服务器[yao@master azkaban-web-2.5.0]$ nohup bin/azkaban-web-start.sh> log.log 2>&1 &[1] 22591启动 Azkaban executor 执行服务器[yao@master azkaban-execu...原创 2019-03-27 16:32:58 · 280 阅读 · 0 评论 -
sqoop的导入和导出
文章目录import从MySQL导入到HDFS从MySQL导入到Hiveexport从HDFS导出到MySQL从Hive导出到MySQLimportsqoop的命令[yao@master ~]$ sqoop helpAvailable commands: codegen Generate code to interact with database reco...原创 2019-03-26 21:24:02 · 355 阅读 · 0 评论 -
基于Hadoop-2.7.7的sqoop-1.4.6安装文档
1 准备安装包2 解压安装包上传安装包解压安装包[yao@master ~]$ tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 3 复制sqoop-env.sh文件把解压后的安装目录下的conf目录中的sqoop-env-templete.sh 复制到sqoop-env.sh[yao@master sqoop-1....原创 2019-03-26 16:21:43 · 601 阅读 · 0 评论 -
Hive(5)高级应用
视图逻辑窗口、视图特性只有逻辑视图,没有物化视图视图只能查询,不能load/insert数据视图在创建的时候,只是保存了一份元数据,当查询视图的时候,才开始执行视图对应的那些子查询优点通过引入视图机制,用户可以将注意力集中在其关心的数据上(而非全部数据),这样就大大提高了用户效率与用户满意度,而且如果这些数据来源于多个基本表结构,或者数据不仅来自于基本表结构,还有一部分...原创 2019-03-26 15:54:11 · 464 阅读 · 0 评论 -
Hive(3)高级操作
文章目录Join操作连接数据准备1 内连接 JOIN2 外连接 OUTER JOIN3 左半连接 LEFT SEMI数据类型原子数据类型复杂数据类型复杂数据类型实例1.array2.MAP3.struct函数内置函数自定义函数Json数据解析1.内置函数2.自定义函数Hive ShellJoin操作连接数据准备数据准备[yao@master data]$ vim studenta.tx...原创 2019-03-23 16:57:44 · 255 阅读 · 0 评论 -
20190321-分区和分桶
文章目录动态分区表1 包含动态分区的字段的表2 关闭严格分区模式3 创建带有分区的表分桶1.实例2 第一个失败的分桶3 第二个分桶4 重点5 总结6 分桶的查询7 数据分桶存在的一些缺陷既分区又分桶动态分区表1 包含动态分区的字段的表准备数据5 男 16 北京 13754554587 2015-03-246 女 17 北京 13872374170 2017-02-202 女 16 ...原创 2019-03-22 18:18:34 · 337 阅读 · 0 评论 -
Hive(2)基本操作
文章目录1 在Hive中执行shell命令和hdfs命令执行shell命令执行hdfs命令2 DDL操作1.Hive中的数据库2.创建表3.修改表3 DML操作1.加载数据2.导出数据3.查询数据3.1 简单查询3.2 复杂查询登录Hadoop和Hive[yao@master ~]$ start-all.shThis script is Deprecated. Instead use sta...原创 2019-03-22 18:17:41 · 392 阅读 · 0 评论 -
Hive(1)初识Hive
Hive概述hive是什么?基于Hadoop、数据仓库、结构化、类SQL、MapReduce任务架构基本组成(用户接口)CLI:是一个和Hive通过命令行交互的接口。thrift server(JDBC/ODBC):提供了可以从不同编程语言编写的客户端访问Hive的接口,支持身份验证和多用户并发访问。Web UIHive Web Interface):Web接口,可以通过浏...原创 2019-03-22 18:16:34 · 273 阅读 · 0 评论 -
基于Hadoop-2.7.7、MySQL5.7的Hive安装文档
文章目录1 上传安装包2 安装MySql2.1 净化MySQL环境2.1.1 检查是否安装过mysql2.1.2 分别卸载2.1.3 删除MySQL相应文件2.2 安装MySQL2.2.1 下载MySQL的yum源2.2.2 查看下载源中包含的rpm包2.2.3 安装rpm包2.2.4 安装MySQL2.2.5 获取临时密码2.2.6 设置密码2.3 配置MySQL2.3.1 创建数据库2.3.2...原创 2019-03-22 18:15:41 · 1350 阅读 · 0 评论 -
Hive(4)Hive中的文件
文件压缩压缩模式1.为什么要压缩在Hive中对中间数据或最终数据做压缩,是提高数据吞吐量和性能的一种手段。对数据做压缩,可以大量减少磁盘的存储空间,比如基于文本的数据文件,可以将文件压缩40%或更多。同时压缩后的文件在磁盘间传输和I/O也会大大减少;当然压缩和解压缩也会带来额外的CPU开销,但是却可以节省更多的I/O和使用更少的内存开销。2.压缩模式评价压缩比压缩比越高,压缩后文件越...原创 2019-03-25 17:48:52 · 657 阅读 · 0 评论 -
Hive任务优化、参数调优
文章目录一、 控制hive任务中的map数:如何合并小文件,减少map数?如何适当的增加map数?二、 控制hive任务的reduce数:1. Hive自己如何确定reduce数:2. 调整reduce个数方法一3. 调整reduce个数方法二4. reduce个数并不是越多越好;5. 什么情况下只有一个reduce;三、 hive参数调优1. Map Reduce数量相关2. 执行计划相关3....转载 2019-03-28 22:01:05 · 1426 阅读 · 0 评论