![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
bigdata_03_Hive
文章平均质量分 86
数据仓库
最佳第六六六人
一只威武的大数据架构攻城狮
展开
-
Hive优化总结
hive的优化: (1)使用mapjoin ①mapjoin的原理是把小表加载到内存中在map端进行join,避免reduce处理 ②多大的表被视为小表呢?默认是25M以下是小表,通过配置参数set hive.mapjoin.smalltable.filesize=25000000 ③如何开启mapjoin呢?set hive.auto.convert.join=true (2)Fetch抓取(默认就是more) ①什么是fetch?Hive中对某些情况的查询可以不走mapreduce ②fetch的级别有原创 2021-03-27 21:59:47 · 232 阅读 · 0 评论 -
bigdata_14_Hive_编译源码
1 编译环境准备 1.1 虚拟机准备 准备一台虚拟机,安装CentOS7.5系统(带图形化操作界面) 1.2 安装JDK 步骤1:卸载现有的JDK sudo rpm -qa | grep -i java | xargs -n1 sudo rmp -e --nodeps 步骤2:上传JDK安装包,并解压到/opt/module/路径 [atguigu@hadoop100 software]tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/ 步骤3:配置原创 2021-01-17 23:53:56 · 450 阅读 · 6 评论 -
大数据4_03_hive调优
10 企业级调优 10.1 Fetch抓取 fetch抓取是指,Hive中对某些情况的查询可以不使用mapreduce计算。 fetch的等级有三个:more(默认)、minimal(老版本)、none 设置为more,在全局查找、字段查找、limit等都不走mapreduce。 hive-default.xml <property> <name>hive.fetch.task.conversion</name> <value>more&l原创 2020-10-29 17:26:12 · 300 阅读 · 0 评论 -
大数据4_02_hive操作流程案例
Hive实战操作流程 1 分析数据结构 视频表 字段 备注 详细描述 video id 视频唯一id 11位字符串 uploader 视频上传者 上传视频的用户名String age 视频年龄 视频在平台上的整数天 category 视频类别 上传视频指定的视频分类 length 视频长度 整形数字标识的视频长度 views 观看次数 视频被浏览的次数 rate 视频评分 满分5分 ratings 流量 视频的流量,整型数字原创 2020-10-29 17:19:17 · 242 阅读 · 0 评论 -
大数据4_01_hive实战操作大全
1 Hive基本概念 hive是什么? hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并且提供类SQL的查询功能。 其本质是将HQL转化成MapReduce程序。 hive处理的数据存储在HDFS,hive的底层数据分析实现是MapReduce,程序运行在Yarn上。 2 Hive安装部署 2.1 安装mysql 步骤1:centos7卸载mariadb rpm -qa | grep mariadb sudo rpm -e --nodeps mari原创 2020-10-29 17:17:41 · 902 阅读 · 1 评论