Hive
晟翊zzZ
这个作者很懒,什么都没留下…
展开
-
Hive ,MySQL安装与部署
Hive基本概念1.什么是HiveHive:是由Facebook 开源用于解决海量结构化日志的数据统计。Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据映射为一张表,并提供类 SQL 查询功能。本质是:将 HQL/SQL 转化为 MapReduce 程序。Hive 处理的数据储存在 HDFS。Hive 分析数据的底层实现是 MapReduce。执行程序运行在 y...原创 2019-09-10 20:51:10 · 552 阅读 · 0 评论 -
Hive 常用配置、操作、数据类型 及DDL语句。
Hive 常见属性配置1.Hive数据仓库位置配置1.Default数据仓库的最原始位置是在hdfs上的:/user/hive/warehouse路径下2.在仓库目录下,没有对默认的数据库default创建文件夹。如果某张表属于default数据库,直接在数据仓库目录下创建一个文件夹。3.修改default数据仓库原始位置(将hive-default.xml.template如下配置信息拷...原创 2019-09-12 15:11:58 · 366 阅读 · 0 评论 -
分区和DML操作
分区表分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多。案例实操分别创建部门和员工外部表,并向表中导入数据。(1)原始数据(2)建表语句创建部门表create external t...原创 2019-09-13 18:53:15 · 227 阅读 · 0 评论 -
Hive查询及 Hive排序
查询https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select全表和特定列查询:全表查询select * from emp;选择特定列查询select empno, ename from emp;注意:(1)SQL 语言大小写不敏感。(2)SQL 可以写在一行或者多行。(3)关键字不能被缩写也不能...原创 2019-09-17 20:15:41 · 1010 阅读 · 0 评论 -
Hive分桶 、Hive自定义函数、Hive压缩、Hive、存储格式
分桶及抽样查询分桶表数据存储分区针对的是数据的存储路径;分桶针对的是数据文件。分区提供一个隔离数据和优化查询的便利方式。不过,并非所有的数据集都可形成合理的分区,特别是之前所提到过的要确定合适的划分大小这个疑虑。分桶是将数据集分解成更容易管理的若干部分的另一个技术。先创建分桶表,通过直接导入数据文件的方式(1)创建分桶表create table stu_buck1(id int, n...原创 2019-09-18 21:00:48 · 191 阅读 · 0 评论 -
大数据之Hive 调优
Hive调优抓取 FetchFetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老...原创 2019-09-20 20:11:19 · 182 阅读 · 0 评论