![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
任错错
学无止境
展开
-
Hbase与Hive的集成
1.HBase与Hive的对比1.Hive(1) 数据仓库Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询。(2) 用于数据分析、清洗Hive适用于离线的数据分析和清洗,延迟较高。(3) 基于HDFS、MapReduceHive存储的数据依旧在DataNode上,编写的HQL语句终将是转换为MapReduce代码执行。2.HBase(1) 数据库是一种面向列存储的非关系型数据库。(2) 用于存储结构化和原创 2020-11-10 09:09:20 · 630 阅读 · 0 评论 -
窗口函数详解
1.group by 语句GROUP BY语句通常会和聚合函数一起使用,按照一个或者多个列队结果进行分组,然后对每个组执行聚合操作。案例实操:(1)计算emp表每个部门的平均工资hive (default)> select t.deptno, avg(t.sal) avg_sal from emp t group by t.deptno;(2)计算emp每个部门中每个岗位的最高薪水hive (default)> select t.deptno, t.job, max(t.原创 2020-09-10 09:59:54 · 835 阅读 · 0 评论 -
hive分桶及抽样查询
分区针对的是数据的存储路径;分桶针对的是数据文件。分区提供一个隔离数据和优化查询的便利方式。不过,并非所有的数据集都可形成合理的分区,特别是之前所提到过的要确定合适的划分大小这个疑虑。分桶是将数据集分解成更容易管理的若干部分的另一个技术。1.先创建分桶表,再创建一张普通表(1)数据准备创建一个student.txt,内容如下:1001 ss11002 ss21003 ...原创 2020-05-07 18:58:01 · 442 阅读 · 0 评论 -
hive 函数
1、函数使用命令1.1、加载当前hive回话中所有函数(包括内置函数与自定义函数)命令:show functions;hive> show functions;OK!!=%&*+-/<<=<=><>===>>=^absacosadd_monthsandarrayarray_c...原创 2020-04-22 16:04:41 · 464 阅读 · 0 评论 -
Hive企业级优化及解决数据倾斜问题
9.1 Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默认是minimal,该属性修改为more以后,在全局查找、字段查找、limit查找等都不走map...原创 2019-06-23 09:51:34 · 113 阅读 · 0 评论 -
大数据框架搭建集群安装配置步骤大全
一《zookeeper集群安装配置》安装步骤:提示:要关闭虚拟机的防火墙,执行:service iptables stop1.准备虚拟机,安装并配置jdk,1.6以上2.上传zookeeper的安装包 3.4.7版本3.解压安装 tar -xvf …………4.配置zookeeper。5.配置集群模式①切换到zookeeper安装目录的conf目录,其中有一个zoo...原创 2019-06-26 11:52:17 · 1606 阅读 · 1 评论