![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive数据仓库
文章平均质量分 94
分享Hive学习笔记
W_chuanqi
这个作者很懒,什么都没留下…
展开
-
HIve中的查询语句
在Hive中,不能在 WHERE 子句中直接使用字段别名,这是因为 Hive 的语法顺序限制了 WHERE 子句的启动时间早于 SELECT 子句中列别名的解析时间,所以在 WHERE 子句中,列别名是未知的。union和union all都是上下拼接sql的结果,这点是和join有区别的,join是左右关联,union和union all是上下拼接。对于distribute by进行测试,一定要分配多reduce进行处理,否则无法看到distribute by的效果。原创 2023-07-04 19:31:22 · 2328 阅读 · 0 评论 -
用户行为数据分析
user_data.csv是一份用户行为数据,时间区间为2017-11-25到2017-12-03,总计29132493条记录,大小为1.0G,包含5个字段。数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。关于数据集中每一列的详细描述如下:用户行为类型共有四种,它们分别是1、查询总访问量PV,总用户量UV2、查询日均访问量,日均用户量3、查询每个用户的购物情况(统计点击、商品购买、加入购物车、收藏的次数),统计结果放入表user_behavior_co原创 2023-06-10 17:48:45 · 1202 阅读 · 0 评论 -
HiveSQL初级题目
两张表:score_info,student_info。原创 2023-06-10 00:44:34 · 1371 阅读 · 0 评论 -
Hive中的DML操作
DML是Data Manipulation Language的缩写,意思是数据操纵语言,是指在SQL语言中,负责对数据库对象运行数据访问工作的指令集,以INSERT、UPDATE、DELETE三种指令为核心,分别代表插入、更新与删除,是开发以数据为中心的应用程序必定会使用到的指令。一并导处的HDFS路径,Import可将Export导出的内容导入Hive,表的数据和元数据信息都会恢复。(2)overwrite:表示覆盖表中已有数据,否则表示追加。(3)加载数据覆盖表中已有的数据。①上传文件到HDFS。原创 2023-06-08 14:32:09 · 1654 阅读 · 0 评论 -
Hive中的DDL操作
在Apache Hive中,托管表(managed table)是由Hive自己管理其数据存储的表,因此,当您在Hive中执行TRUNCATE操作时,Hive会直接删除表中的所有数据,而存储表结构和元数据。在创建内部表的时候可以不指定路径进行创建,但是在创建外部表的时候,需要指定外部数据的存储位置,也就是指定外部存储的路径。外部表,与之相对应的是内部表(管理表)。该语法允许用户利用select查询语句返回的结果,直接建表,表的结构和查询语句的结构保持一致,且保证包含select查询语句放回的内容。原创 2023-06-08 11:22:42 · 871 阅读 · 0 评论 -
Hive数据类型和文件格式
转换的原则是从数据范围小的类型向数据范围大的类型转换,或从数据精度低的类型向数据精度高的类型转换,以保证数据和精度不丢失。employees表的第1行记录看上去和下面展示的一样,它用到了上面表格中的分隔符。Hive中经常经使用未经压缩的文本文件来存储数据,各字段之间如何保证正确分隔,分隔符的选择十分重要,已选定的分隔符不能出现在数据中。Hive 的 STRING 类型相当于数据库的 varchar 类型,该类型是一个可变的字符串,不过它不限定最多能存储多少个字符,理论上它可以存储 2GB 的字符数。原创 2023-06-08 09:44:07 · 1703 阅读 · 0 评论 -
HIve安装配置(超详细)
文章目录Hive安装配置一、Hive安装地址二、Hive安装部署1. 把 `apache-hive-3.1.2-bin.tar.gz`上传到Linux的/export/software目录下2. 解压`apache-hive-3.1.2-bin.tar.gz`到/export/servers/目录下面3. 修改`apache-hive-3.1.2-bin.tar.gz`的名称为hive4. 修改/etc/profile,添加环境变量5. 初始化元数据库(默认是derby数据库)三、MySQL安装1. 安装M原创 2023-04-19 14:07:30 · 61618 阅读 · 40 评论 -
Hive常⽤交互命令与属性配置
或者或者–defifine key=value和–hivevar key=value是等价的。⼆者都是让⽤户在命令⾏定义⾃定义变量以便在Hive脚本中使⽤。当⽤户使⽤这个功能时,hive会将这些键值对放到hivevar命名空间,以便和其他3种内置命名空间(hiveconf、system、env)进⾏区分。hive属性有3种配置⽅式,分别可以在hive-site.xml中配置、命令⾏参数中配置、SET设定参数配置,上述三种设定⽅式的优先级依次递增。即配置⽂件原创 2023-04-02 21:18:36 · 702 阅读 · 2 评论 -
Hive数据仓库的安装配置
Hive起源于Facebook,Facebook公司有着大量的日志数据,而Hadoop是实现了MapReduce模式开源的分布式并行计算的框架,可轻松处理大规模数据。然而MapReduce程序对熟悉Java语言的工程师来说容易开发,但对于其他语言使用者则难度较大。因此Facebook开发团队想设计一种使用SQL语言对日志数据查询分析的工具,而Hive就诞生于此,只要懂SQL语言,就能够胜任大数据分析方面的工作,还节省了开发人员的学习成本。原创 2023-01-07 18:26:11 · 878 阅读 · 0 评论 -
Hive数据仓库简介
Hive起源于Facebook,Facebook公司有着大量的日志数据,而Hadoop是实现了MapReduce模式开源的分布式并行计算的框架,可轻松处理大规模数据。然而MapReduce程序对熟悉Java语言的工程师来说容易开发,但对于其他语言使用者则难度较大。因此Facebook开发团队想设计一种使用SQL语言对日志数据查询分析的工具,而Hive就诞生于此,只要懂SQL语言,就能够胜任大数据分析方面的工作,还节省了开发人员的学习成本。原创 2023-03-21 15:05:49 · 3756 阅读 · 0 评论