Hive
文章平均质量分 84
myllxy
欢迎关注知乎专栏:https://www.zhihu.com/column/c_1274036496291827712
展开
-
Hive架构简介与安装
一.Hive的出现如何实现对SQL技术比较熟悉的程序设计人员在Hadoop平台上对海量数据进行分析?如何实现传统数据格式到Hadoop上的迁徙,如基于传统关系型数据库格式和SQl处理技术?如何实现传统数据库设计人员在Hadoop平台上使用其所熟悉的SQL技术展现其才能?如何在分布式环境下采用数据仓库技术从更多的数据中快速的获取数据的有效价值?————Hive应景而生。作为一种数据仓库技...原创 2018-12-08 18:17:12 · 211 阅读 · 0 评论 -
Hive数据库和表DDL操作
一.数据库1.创建数据库创建一个数据库,默认存储路径在/user/hive/warehouse create database if not exists db_hive在该数据库下创建一张表 create table if not exists db_hive.sutdent(name string,id int);2.数据库查询显示数据库 show...原创 2018-12-27 20:15:45 · 834 阅读 · 1 评论 -
Hive入门初体验
一.将本地文件导入Hive案例在本地创建一张student.txt在Hive中创建一个student表导入本地student.txt到student表 load data local inpath "/root/apps/hive-1.2.2/data/student.txt" into table student;但是这样是有问题的——我们应该在创建表的时候指定分...原创 2018-12-13 22:03:07 · 365 阅读 · 0 评论 -
Hive表DML操作
一.数据导入1.向表中装载数据(load)1.语法load data [local] inpath 'path' overwrite | into table tablename[partition(partcol1=val,...)](1)load data:表示加载数据(2)local:表示从本地加载数据到Hive表,否则从HDFS中加载数据到Hive表(3)inpa...原创 2018-12-18 16:53:37 · 2960 阅读 · 0 评论 -
Hive查询语句
一.基本查询1.全表查询和特定列查询1.1 全表查询1.2 选择特定列查询2.列别名 3.算术运算符4.常用函数 二.WHERE语句1.比较运算符 如:2.逻辑运算符三.分组1.group by语句GROUP BY语句用来与聚合函数(aggregate functions such as COUNT, SUM,...原创 2019-01-03 19:21:16 · 2615 阅读 · 0 评论 -
Hive 分桶及抽样查询
一.分桶表数据存储分区针对的是数据的存储路径;分桶针对的是数据文件。分区提供一个隔离数据和优化查询的便利方式,不过并非所有的数据集都能形成合适的分区,特别是之前提到过的要确定合适的划分大小这个顾虑。分桶是将数据集分解成更容易管理的若干个部分。先创建分桶表,通过直接导入数据文件的方式(1)数据准备(2)创建分桶表它的文件目录结构是这样的:和分区表没什么区别呢(3)加载数据...原创 2019-04-03 22:11:34 · 351 阅读 · 0 评论 -
Hive 常用查询操作
一.空字段赋值1.函数说明2.测试表如下3.如果某一列某一行的值为 null ,则用-1代替4.或者这样用当年份为 null 时,输出年份对应的地址:二.case when then end这里新建一张表:select variety,sum(case year when 1931 then 1 else 0 end) var_1931,sum(case year...原创 2019-04-05 15:47:49 · 1265 阅读 · 0 评论 -
Hive hiveserver2
一.简介HiveServer2(HS2) 是一种服务,它使客户端能够对 Hive 执行查询。HiveServer2 的前身是 HiveServer1 已被弃用。HS2 支持多客户端并发和身份验证。它旨在为 JDBC 和 ODBC 等开放 API 客户端提供更好的支持。HS2 是作为组合服务运行的单个进程,其中包括基于 Thrift 的 Hive 服务( TCP 或 HTTP)和用于 Web U...原创 2019-04-09 19:28:14 · 575 阅读 · 0 评论 -
Hive 窗口函数
一.窗口函数说明二.应用其中,ename是员工名字,sum(sal)是员工工资总和。在Hive中,这样的操作是不允许的,必须加一个group by,通过语句来划分窗口,但我现在要的是全量窗口,我就想在原来查出来的那一列基础上再加一个列,该列为全量数据的总和。有这样一个业务:一个公司,有n个部门,每个部门有m个员工,现在我需要在某员工工资列后面加一列所有部门的平均工资而不是该员工所属部门...原创 2019-04-16 19:56:18 · 345 阅读 · 0 评论