hive
爱学习的小肥猪
这个作者很懒,什么都没留下…
展开
-
Hadoop之Hive简介与安装、测试(一)
一、Hive是什么?Hive是一种建立在Hadoop文件系统上的数据仓库架构,并对存储在HDFS中的数据进行分析与管理。可以通俗的理解为: 对于存储在HDFS中的数据进行分析与管理时,我们不想使用手工,从而建立一个工具来进行相应的操作,这个工具就是hive。 数据仓库:数据仓库的本质就是收集尽可能多的信息,用作公司的决策支持。数据仓库一般是不可更新的,数据仓库主要是为决策分析提供数据,所涉...原创 2019-12-03 14:13:27 · 363 阅读 · 0 评论 -
大数据技术之Hive(一)
一 、Hive 基本概念1.1 什么是 Hive Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。 本质是:将 HQL 转化成 MapReduce 程序 1)Hive 处理的数据存储在 HDFS 2)Hive 分析数据底层的实...原创 2019-12-02 14:35:53 · 112 阅读 · 0 评论 -
大数据技术之Hive(二)
二 Hive 安装环境准备2.1 Hive 安装地址1)Hive 官网地址:http://hive.apache.org/2)文档查看地址:https://cwiki.apache.org/confluence/display/Hive/GettingStarted3)下载地址:http://archive.apache.org/dist/hive/4)github 地址:https://g...原创 2019-12-02 14:32:21 · 159 阅读 · 0 评论 -
大数据技术之Hive(三)
三、Hive 数据类型3.1 基本数据类型对于 Hive 的 String 类型相当于数据库的 varchar 类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储 2GB 的字符数。3.2 集合数据类型Hive 有三种复杂数据类型 ARRAY、MAP 和 STRUCT。ARRAY 和 MAP 与 Java 中的 Array 和 Map ...原创 2019-12-02 14:29:41 · 176 阅读 · 0 评论 -
大数据技术之Hive(四)
五、 DML 数据操作5.1 数据导入5.1.1 向表中装载数据(Load)1)语法hive>load data [local] inpath ‘/opt/module/datas/student.txt’ [overwrite] into table student [partition (partcol1=val1,…)];(1)load data:表示加载数据(2)local:表示从本...原创 2019-12-02 14:26:52 · 190 阅读 · 1 评论 -
大数据技术之Hive(五)
七 、函数7.1 系统自带的函数1)查看系统自带的函数hive> show functions;12)显示自带的函数的用法hive> desc function upper;13)详细显示自带的函数的用法hive> desc function extended upper;17.2 自定义函数1)Hive 自带了一些函数,比如:max/min 等,但是数量有限,自己可以通过自定义...原创 2019-12-02 14:23:54 · 814 阅读 · 0 评论 -
大数据技术之Hive(七)
十一、数据仓库11.1 什么是数据仓库数据仓库,英文名称为 Data Warehouse,可简写为 DW 或 DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。11.2 数据仓库能干什么?1)年度销售目标的指定,需要根据以往的历...原创 2019-12-02 14:14:29 · 161 阅读 · 0 评论 -
Hive数据类型
基本数据类型 Hive数据类型 Java数据类型 长度 例子 TINYINT byte 1byte有符号整数 20 SMALINT short 2byte有符号整数 ...原创 2019-11-19 15:20:46 · 166 阅读 · 0 评论 -
Hive中DDL数据定义之分区表
hive表实际上就是对应一个HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多1.单级分区表基本操作1)创建分区表语法 createtabletest( deptnoint, ...原创 2019-11-19 15:16:14 · 161 阅读 · 0 评论 -
Hive中DML数据操作
1.数据导入1)向表中装载数据(load)语法 loaddata[local] inpath'/opt/module/datas/student.txt' [overwrite] intotablestudent [partition(partcol1=val1,…)]; load data:表示加载数...原创 2019-11-19 15:13:04 · 127 阅读 · 0 评论 -
Hive中函数
Hive自带的函数1)查看系统自带的函数hive> showfunctions;2)显示自带的函数的用法hive> desc function upper;3)详细显示自带的函数的用法hive> desc function extended upper;2.自定义函数1)Hive 自带了一些函数,比如:max/min 等,但是数量有限,自己可以通...原创 2019-11-19 15:01:15 · 72 阅读 · 0 评论 -
Hive项目实战四
最终业务实现 1.视频观看数 Top10使用order by做一个全局排序即可selectvideoId,uploader,viewsfromuser_orcorderbyviewsdesclimit20; 2. 视频类别热度 Top10需求分析:统计出每个类别有多少个视频,然后显示出视频最多的前10个,我们需要使用group by对视频类别进行聚合...原创 2019-11-19 14:52:00 · 206 阅读 · 0 评论 -
hive 安装与使用
1,概念 2,hive 安装 1)获取 hive 安装包并解压 /home/hduser/下 2)hive 是在 hadoop 基础上的一种数据仓库,必须在环境变量 $HADOOP_HOME 3)配置 hive 环境变量HIVE_HOME与PATH(/etc/profile) 4)conf ...原创 2019-11-04 15:35:01 · 66 阅读 · 0 评论