Hive SQL语句操作

本文详述了一次基于Hive环境执行Hive SQL语句的任务,涵盖大数据离线处理特点、HDFS、Yarn组件功能以及Hive的使用。通过创建HQL文件、数据加载、查询与计算等步骤,旨在帮助读者掌握Hive的基础操作和常用SQL语句。
摘要由CSDN通过智能技术生成

⚠申明: 未经许可,禁止以任何形式转载,若要引用,请标注链接地址。 全文共计5225字,阅读大概需要3分钟
🌈更多学习内容, 欢迎👏关注👀【文末】我的个人微信公众号:不懂开发的程序猿
⏰个人网站:https://jerry-jy.co/

❗❗❗知识付费,🈲止白嫖,有需要请后台私信或【文末】个人微信公众号联系我

一、 任务描述

本实验任务主要完成基于Hive环境执行一些常用的Hive SQL语句操作,通过完成本实验任务,要求学生熟练掌握Hive SQL的常用语句,掌握Hive的基础和操作。

二、 任务目标

掌握Hive的数据类型
  掌握hive的数据类型的使用
  掌握hive的DDL语句的操作

三、 任务环境

本次环境是:Ubuntu16.04+hadoop-2.7.3.+apache-hive-1.2.2-bin

四、 任务分析

1. 大数据离线处理特点

数据量巨大且保存时间长;
在大量数据上进行复杂的批量运算;
数据在计算之前已经完全到位,不会发生变化;
能够方便的查询批量计算的结果;
不像在线计算当前呈现的各种框架和架构,离线处理目前技术上已经成熟,大家使用的均是:使用Hdfs存储数据,使用MapReduce做批量计算,计算完成的数据如需数据仓库的存储,直接存入Hive,然后从Hive 进行展现。

2. HDFS

Hdfs 是一种分布式文件系统,和任何文件系统一样Hdfs提供文件的读取,写入,删除等操作。Hdfs 是能够很好的解决离线处理中需要存储大量数据的要求Hdfs和本地文件系统的区别如下:

  • Hdfs 不支持随机读写;
    • Hdfs 是分布式文件系统,支持数据多备份;
      Hdfs 多备份数据存放策略: 第一个副本放在和client一样的node里(如果client不在集群范围内,则这第一个node是随机选取的,当然系统会尝试不选择哪些太满或者太忙的node);第二个副本放置在与第一个节点不同的机架中的node中(随机选择);第三个副本和第二个在同一个机架,随机放在不同的node中。如果还有更多的副本就随机放在集群的node里。
      MapReduce 是一种分布式批量计算框架,分为 Map 阶段和 Reduce 阶段。 MapReduce能够很好的解决离线处理中需要进行大量计算的要求。 MapReduce从出现到现在经历了第一代MapReduce v1 和 第二代MapReduce Yarn。
      Yarn 框架相对于老的 MapReduce 框架有以下优势:
    1. 减小了 JobTracker的资源消耗,之前JobTracker既负责资源分配,也负责任务监控,Yarn 将这两项任务分别交给了ResourceManager 和ApplicationMaster ,减少了之前 JobTracker 单点失败的风险;
    1. 现在大部分使用 YARN
  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: Oracle和Hive SQL语句有一些相似之处,但也有一些不同之处。 相似之处: 1. 语法:Oracle和Hive SQL语句的语法都是基于SQL标准的,因此它们有很多相似之处。 2. 数据类型:Oracle和Hive SQL语句都支持常见的数据类型,如整数、浮点数、字符串等。 3. 聚合函数:Oracle和Hive SQL语句都支持聚合函数,如SUM、AVG、MAX、MIN等。 不同之处: 1. 分区:Hive SQL语句支持分区,可以将数据按照某个字段进行分区,提高查询效率。而Oracle没有这个功能。 2. 数据类型:Hive SQL语句支持更多的数据类型,如数组、结构体等,而Oracle不支持。 3. 执行引擎:Oracle和Hive SQL语句执行引擎不同,Oracle使用的是传统的关系型数据库引擎,而Hive使用的是基于Hadoop的MapReduce引擎。 总的来说,Oracle和Hive SQL语句都有各自的优缺点,需要根据具体的需求来选择使用哪种语句。 ### 回答2: Oracle和Hive SQL是两种不同的数据库管理系统,它们各有优点和劣势,在处理大数据的时候有着不同的比较。下面将从各个方面来比较它们的优劣。 一、数据类型的支持 Oracle支持的数据类型较为丰富,包括基本的整型、字符型、日期型,还有二进制大对象等复杂数据类型,在数据处理的时候更为灵活,支持更多的应用场景。 而Hive SQL在数据类型的支持上相对较少,主要支持整型、浮点型、字符串、日期等基本数据类型,不支持复杂的二进制对象。 二、数据分析功能 Oracle在数据分析方面有着强大的功能,支持窗口函数、分析函数、统计函数等高级分析功能。它可以快速的进行数据分析和处理。 而Hive SQL在数据分析方面相对较弱,主要支持基本的数据分析功能,但是由于它的数据存储方式是分布式的,可以通过MapReduce来处理更大的数据集。 三、性能方面 Oracle在性能方面表现良好,在多用户的高并发情况下也有着出色的表现。通过多线程的方式处理大量数据,在响应速度和数据处理能力上都比较强。 而Hive SQL在性能方面较为一般,在处理大量数据时需要较长的时间和较大的计算资源。但是它的分布式存储方式可以保证数据的并发性和容错性。 四、编程接口 Oracle支持多种编程语言,比如Java、C++、Python等,而Hive SQL主要使用HiveQL语言,也可以通过Java和Python等编程语言来操作Hive。 总的来说,Oracle和Hive SQL各有优点,在不同的场景下选择适合自己的工具才是最佳的选择。如果你要处理的数据较为复杂,需要进行高级的数据分析,可以选择Oracle数据库;如果你需要处理的是大量分布式的数据,可以选择Hive SQL。 ### 回答3: Oracle和Hive SQL是两种不同的数据库管理系统,它们都有自己的优点和缺点,也可以根据不同的需求进行选择。 Oracle是一种商业化的数据库管理系统,它具有强大的性能和扩展性,可以支持非常大规模的数据处理和存储。Oracle可以通过多种方式进行访问和管理,包括命令行、Web界面、可视化工具等等。它还提供了非常强大的安全性和可靠性,可以处理高并发的各种数据库操作。另外,Oracle也有非常广泛的使用场景,是传统企业数据管理的首选之一。 相比之下,Hive SQL主要是为大数据处理而设计的,它可以将数据存储在Hadoop分布式文件系统中,通过MapReduce进行处理。Hive SQL可以使用类SQL语法来进行数据分析和查询,非常适合于处理非结构化数据和大规模的数据集。Hive SQL还具有较低的成本和高可伸缩性,可以扩展到数百万个节点,可以运行在云环境中。 总体来说,Oracle和Hive SQL都是非常强大、成熟的数据库管理系统,它们提供了不同的功能和使用场景。对于处理传统企业数据的场景,Oracle是更为合适的选择。如果需要处理大规模的非结构化数据集,或者需要在云环境中运行,那么Hive SQL则是更好的选择。不过,这并不是绝对的答案,具体选择还需要根据实际需求进行权衡和评估。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不懂开发的程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值