Hive
Hive从入门到放弃
不温卜火
大数据开发/数据采集/数据清洗/数据分析/数据可视化
关注我!共同学习!!!
展开
-
Hive常见错误及解决方案
此次博主为大家带来的是Hive常见错误及解决方案。目录1.SecureCRT 7.3出现乱码或者删除不掉数据,免安装版的SecureCRT 卸载或者用虚拟机直接操作或者换安装版的SecureCRT2.连接不上mysql数据库 (1)导错驱动包,应该把mysql-connector-java-5.1.27-bin.jar导入/opt/module/hive/lib的不是这个包。错把...原创 2020-05-10 13:35:28 · 11019 阅读 · 2 评论 -
Hive项目实战系列(3) | 业务分析
此次博主为大家带来的是Hive项目实战系列的第三部分,也是最终部分。目录1. 统计视频观看数Top102. 统计视频类别热度Top103. 统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个数4. 统计视频观看数Top50所关联视频的所属类别排序5. 统计每个类别中的视频热度Top10,以Music为例6. 统计每个类别中视频流量Top10,以Music为例7. 统计每...原创 2020-05-10 09:38:13 · 10808 阅读 · 18 评论 -
Hive项目实战系列(2) | 分析前准备(创建表与插入数据)
此次博主为大家带来的是Hive项目实战系列的第二部分。目录一 启动hive二. 创建表2.1 拿到原始数据(日志数据| ori表 )2.2 把数据导入到hive中进行处理(创建两张orc表)2.3 向ORC表插入数据一 启动hive .1 启动hiveserver2服务[bigdata@hadoop002 hive]$ bin/hiveserver2 2 启动beeline...原创 2020-05-10 09:37:41 · 8632 阅读 · 24 评论 -
Hive项目实战系列(1) | 项目创建与上传数据
此次博主为大家带来的是Hive项目实战系列。目录一. 项目需求二. 项目2.1 数据结构2.2 上传数据2.3 ETL原始数据一. 项目需求统计谷粒影音视频网站的常规指标,各种TopN指标:1–统计视频观看数Top102–统计视频类别热度Top103–统计视频观看数Top20所属类别4–统计视频观看数Top50所关联视频的所属类别Rank5–统计每个类别中的视频热度Top1...原创 2020-05-10 09:31:34 · 8605 阅读 · 31 评论 -
Hive快速入门系列(21) | Hive中的数据类型与转换
此次博主为大家带来的是Hive中的数据类型与转换。目录一. 基本数据类型二. 集合数据类型三. 类型转化3.1 隐式类型转换规则如下3.2 可以使用CAST操作显示进行数据类型转换一. 基本数据类型Hive数据类型Java数据类型长度例子TINYINTbyte1byte有符号整数20SMALINTshort2byte有符号整数20INT...原创 2020-05-09 08:36:23 · 11676 阅读 · 18 评论 -
Hive快速入门系列(20) | Hive性能调优 [七] 推测执行
此次博主为大家带来的是Hive性能调优中的推测执行。 在分布式集群环境下,因为程序Bug(包括Hadoop本身的bug),负载不均衡或者资源分布不均等原因,会造成同一个作业的多个任务之间运行速度不一致,有些任务的运行速度可能明显慢于其他任务(比如一个作业的某个任务进度只有50%,而其他所有任务已经运行完毕),则这些任务会拖慢作业的整体执行进度。为了避免这种情况发生,Hadoop采用了推测...原创 2020-05-09 08:36:00 · 12425 阅读 · 4 评论 -
Hive快速入门系列(19) | Hive性能调优 [六] JVM重用
此次博主为大家带来的是Hive性能调优中的JVM重用。 JVM重用是Hadoop调优参数的内容,其对Hive的性能具有非常大的影响,特别是对于很难避免小文件的场景或task特别多的场景,这类场景大多数执行时间都很短。 Hadoop的默认配置通常是使用派生JVM来执行map和Reduce任务的。这时JVM的启动过程可能会造成相当大的开销,尤其是执行的job包含有成百上千task任务的情...原创 2020-05-09 08:35:44 · 11786 阅读 · 6 评论 -
Hive快速入门系列(18) | Hive性能调优 [五] 严格模式
此次博主为大家带来的是Hive性能调优中的严格模式。Hive提供了一个严格模式,可以防止用户执行那些可能意想不到的不好的影响的查询。 通过设置属性hive.mapred.mode值为默认是非严格模式nonstrict 。开启严格模式需要修改hive.mapred.mode值为strict,开启严格模式可以禁止3种类型的查询。<property> <name&...原创 2020-05-09 08:35:24 · 9176 阅读 · 4 评论 -
Hive快速入门系列(17) | Hive性能调优 [四] 并行执行
此次博主为大家带来的是Hive性能调优中的并行执行。 Hive会将一个查询转化成一个或者多个阶段。这样的阶段可以是MapReduce阶段、抽样阶段、合并阶段、limit阶段。或者Hive执行过程中可能需要的其他阶段。默认情况下,Hive一次只会执行一个阶段。不过,某个特定的job可能包含众多的阶段,而这些阶段可能并非完全互相依赖的,也就是说有些阶段是可以并行执行的,这样可能使得整个job...原创 2020-05-08 12:55:14 · 8048 阅读 · 35 评论 -
Hive快速入门系列(16) | Hive性能调优 [三] 数据倾斜
此次博主为大家带来的是Hive性能调优中的数据倾斜。目录一. 合理设置Map及Reduce数二. 复杂文件增加Map数三. 小文件进行合并四. 合理设置Reduce数4.1 调整reduce个数方法一4.2 调整reduce个数方法二4.3 reduce个数并不是越多越好一. 合理设置Map及Reduce数 1.通常情况下,作业会通过input的目录产生一个或者多个map任务。主...原创 2020-05-08 10:55:03 · 7747 阅读 · 21 评论 -
Hive快速入门系列(15) | Hive性能调优 [二] 表的优化
此次博主为大家带来的是Hive性能调优中的表的优化。目录一. 小表、大表Join二. 大表Join大表2.1 空KEY过滤2.2 空key转换1. 不随机分布空null值:2. 随机分布空null值三. MapJoin(小表join大表)3.1 开启MapJoin参数设置3.1 MapJoin工作机制四. Group By五. Count(Distinct) 去重统计六. 笛卡尔积七. 行...原创 2020-05-08 08:58:40 · 9731 阅读 · 26 评论 -
Hive快速入门系列(14) | Hive性能调优 [一]Fetch抓取与本地模式
此次博主为大家带来的是Hive性能调优中的Fetch抓取与本地模式。目录一. Fetch抓取二. 本地模式一. Fetch抓取 我们在刚开始学习hive的时候,都知道hive可以降低程序员的学习成本和开发成本,具体表现就在于可以将SQL语句转换成MapReduce程序运行。 Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算\color{#FF000...原创 2020-05-07 09:40:38 · 7267 阅读 · 20 评论 -
Hive快速入门系列(13) | Hive的数据存储格式
此次博主为大家带来的是Hive的数据存储格式。目录1. 列式存储和行式存储2. TextFile格式3. Orc格式4. Parquet格式5. 主流文件存储格式对比实验5.1 存储文件的压缩比测试5.2 存储文件的查询速度测试Hive支持的存储数据的格式主要有:TEXTFILE、SEQUENCEFILE、ORC、PARQUET。\color{#FF0000}{Hive支持的存储数据的格...原创 2020-05-07 09:39:43 · 7137 阅读 · 23 评论 -
Hive快速入门系列(12) | Hive的数据压缩介绍及使用
此次博主为大家带来的是Hive的数据压缩介绍及使用。目录一. Hadoop源码编译支持Snappy压缩1.1 资源准备1.2 jar包安装1.3 编译源码二. Hadoop压缩配置2.1 MR支持的压缩编码2.2 压缩参数配置三. 开启Map输出阶段压缩四. 开启Reduce输出阶段压缩一. Hadoop源码编译支持Snappy压缩1.1 资源准备 1.CentOS联网配置...原创 2020-05-06 14:02:31 · 6405 阅读 · 20 评论 -
Hive快速入门系列(11) | Hive的自定义函数
本次博主为大家带来的是Hive的自定义函数。目录一. 系统内置函数二. 自定义函数三. 自定义UDF函数四. 通过reflect调用java方法一. 系统内置函数 查看系统自带的函数hive> show functions; 我们可以看到hive自带的函数就有两百多个,但我们平时经常用到的可能就那么几个,并且自带的函数功能还十分受限!有时候,为了更好的实现业务需求...原创 2020-05-06 10:30:52 · 6070 阅读 · 24 评论 -
Hive快速入门系列(10) | Hive的查询语法
我们光知道Hive,不会其语法怎么办呢?此篇博文专门为大家带来操作实例。目录一. SELECT二. 常用函数三. LIMIT语句四. WHERE语句五. 比较运算符(BETWEEN/IN/ IS NULL)5.1 表格显示5.2 举例操作六. LIKE和RLIKE七. 分组7.1 GROUP BY语句7.2 HAVING语句八. JOIN语句8.1 等值JOIN8.2 表的别名8.3 内连...原创 2020-05-06 08:29:36 · 6034 阅读 · 18 评论 -
Hive快速入门系列(9) | Hive表中数据的加载与导出
本次博主为大家带来的是Hive表中数据的加载与导出。希望能够帮助到大家。目录一. Hive表中加载数据1.1 直接向分区表中插入数据1.2 通过查询插入数据1.3 多插入模式1.4 查询语句中创建表并加载数据(as select)1.5 创建表时通过location指定加载数据路径二. Hive表中的数据导出(了解就行)2.1 insert导出2.2 Hadoop命令导出到本地2.3 hiv...原创 2020-05-05 15:43:56 · 6077 阅读 · 10 评论 -
Hive快速入门系列(8) | Hive的基本操作(不定期更新~)
本次博主为大家带来的是Hive的基本操作。目录一. 创建数据库与创建数据库表1.1 创建数据库二. Hive建表时候的字段类型三. 数据库表的基本操作3.1 内部表3.2 创建外部数据表1. 外部表说明2. 管理表和外部表的使用场景3. 操作实例3.3 创建分区表3.4 创建分桶表3.5 修改表1. 表重命名2. 增加/修改列信息3. 删除表一. 创建数据库与创建数据库表1.1 创建数...原创 2020-05-05 13:53:26 · 5884 阅读 · 10 评论 -
Hive快速入门系列(7) | Hive常见的属性配置
本次博主为大家带来的事Hive常见的属性配置。希望能够帮助大家。目录一. Hive数据仓库位置配置二. 查询后信息显示配置三. Hive运行日志信息配置四. 参数配置方式4.1 查看当前所有的配置信息4.2 参数的配置三种方式一. Hive数据仓库位置配置 1. Default数据仓库的最原始位置是在hdfs上的:/user/hive/warehouse路径下。 2. 在仓库目...原创 2020-05-05 09:46:40 · 5927 阅读 · 4 评论 -
Hive快速入门系列(6) | Hive中常用的交互命令及其他的一些命令
此篇博文博主为大家讲解的是Hive中常用的交互命令及其他的一些命令。目录原创 2020-05-04 14:32:19 · 5303 阅读 · 4 评论 -
Hive快速入门系列(5) | 如何访问HiveJDBC
此篇博文博主为大家讲解的是如何访问HiveJDBC。目录1. 启动hiveserver2服务2. 启动beeline(hive自带的JDBC访问的客户端)3. 连接hiveserver24. hiveserver2和beeline的区别 首先,我们先来看下Hive的bin文件夹的目录:此次用到的为hiveserver2和beeline1. 启动hiveserver2服务[big...原创 2020-05-04 11:24:13 · 5365 阅读 · 4 评论 -
Hive快速入门系列(4) | 如何将Hive元数据配置到MySql
上一篇博文我们讲了怎样安装MySql,这篇文章为上篇的后续,此篇文章讲的是如何将Hive元数据配置到MySql。本系列所用到的安装包博主已经上传到百度云盘中,如有需要的可以自取。下面为链接:链接:https://pan.baidu.com/s/10ezDJTuZl-qU2sq0hDCinw提取码:pw12目录一. 驱动拷贝1.在/opt/software/mysql-libs目录下解压...原创 2020-05-04 08:58:55 · 4825 阅读 · 4 评论 -
Hive快速入门系列(3) | 如何Mysql安装
上一篇博文我们讲了hive的操作,并且知道默认的derby数据库不支持并发执行,因此我们选用Mysql存储Metastore。那么这篇博文带来的是如何安装Mysql。目录一. 安装包准备1.1 查看mysql是否安装,如果安装了,卸载mysql1.2 解压mysql-libs.zip文件到当前目录1.3 进入到mysql-libs文件夹下二. 安装MySql服务器2.1 安装mysql服务端...原创 2020-05-03 13:15:48 · 4773 阅读 · 2 评论 -
Hive快速入门系列(2) | Hive的安装部署及基本操作(超简单!)
经过上篇的简单介绍,相信大家已经了解什么是Hive,那么这篇文章讲述的是怎样安装部署Hive。本系列所用到的安装包博主已经上传到百度云盘中,如有需要的可以自取。下面为链接:链接:https://pan.baidu.com/s/10ezDJTuZl-qU2sq0hDCinw提取码:pw12目录1. Hive安装及配置1.1 解压apache-hive-1.2.1-bin.tar.gz到/...原创 2020-05-03 11:24:21 · 4948 阅读 · 6 评论 -
Hive快速入门系列(1) | Hive的基本概念(超详细,入门推荐!)
经过前面的学习之后,我们总算是来到了Hive阶段。本篇博客博主将为大家带来Hadoop组件之——Hive的介绍! 首先在开始之前,再让我们通过一张熟悉的图片来回顾一下Hadoop生态系统的组成部分。目录基本概念1.1 什么是Hive1.2 为什么使用Hive1.3 Hive的优缺点1. 优点2. 缺点1.4 Hive架构1.5 执行过程1.6 Hive与Hadoop的关系1.7 Hiv...原创 2020-05-03 09:51:15 · 5739 阅读 · 2 评论