![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
bigdata_03_Hive
文章平均质量分 86
数据仓库
最佳第六六六人
一只威武的大数据架构攻城狮
展开
-
Hive优化总结
hive的优化:(1)使用mapjoin①mapjoin的原理是把小表加载到内存中在map端进行join,避免reduce处理②多大的表被视为小表呢?默认是25M以下是小表,通过配置参数set hive.mapjoin.smalltable.filesize=25000000③如何开启mapjoin呢?set hive.auto.convert.join=true(2)Fetch抓取(默认就是more)①什么是fetch?Hive中对某些情况的查询可以不走mapreduce②fetch的级别有原创 2021-03-27 21:59:47 · 234 阅读 · 0 评论 -
bigdata_14_Hive_编译源码
1 编译环境准备1.1 虚拟机准备准备一台虚拟机,安装CentOS7.5系统(带图形化操作界面)1.2 安装JDK步骤1:卸载现有的JDKsudo rpm -qa | grep -i java | xargs -n1 sudo rmp -e --nodeps步骤2:上传JDK安装包,并解压到/opt/module/路径[atguigu@hadoop100 software]tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/步骤3:配置原创 2021-01-17 23:53:56 · 455 阅读 · 6 评论 -
大数据4_03_hive调优
10 企业级调优10.1 Fetch抓取fetch抓取是指,Hive中对某些情况的查询可以不使用mapreduce计算。fetch的等级有三个:more(默认)、minimal(老版本)、none设置为more,在全局查找、字段查找、limit等都不走mapreduce。hive-default.xml<property> <name>hive.fetch.task.conversion</name> <value>more&l原创 2020-10-29 17:26:12 · 302 阅读 · 0 评论 -
大数据4_02_hive操作流程案例
Hive实战操作流程1 分析数据结构 视频表字段备注详细描述video id视频唯一id11位字符串uploader视频上传者上传视频的用户名Stringage视频年龄视频在平台上的整数天category视频类别上传视频指定的视频分类length视频长度整形数字标识的视频长度views观看次数视频被浏览的次数rate视频评分满分5分ratings流量视频的流量,整型数字原创 2020-10-29 17:19:17 · 245 阅读 · 0 评论 -
大数据4_01_hive实战操作大全
1 Hive基本概念hive是什么?hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并且提供类SQL的查询功能。其本质是将HQL转化成MapReduce程序。hive处理的数据存储在HDFS,hive的底层数据分析实现是MapReduce,程序运行在Yarn上。2 Hive安装部署2.1 安装mysql步骤1:centos7卸载mariadbrpm -qa | grep mariadbsudo rpm -e --nodeps mari原创 2020-10-29 17:17:41 · 905 阅读 · 1 评论