Hive使用注意事项（持续更新）

最新推荐文章于 2023-08-02 00:27:16 发布

flyingsk

最新推荐文章于 2023-08-02 00:27:16 发布

阅读量822

点赞数

分类专栏： Hive 文章标签： mapreduce hadoop mysql 脚本任务 c

本文链接：https://blog.csdn.net/flyingsk/article/details/7521842

版权

Hive 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Hive是一个非常好用的东东。可以省去写MapReduce程序的痛苦。

一般来说，Hive可以覆盖90%的MapReduce任务的需求，大大减少开发代价。

但是使用Hive，有很多需要注意的地方。

本文会持续整理一些，帮大家避免一些问题。

1. 请不要使用Hive并行向同一个表的不同分区导入数据。

有人说，我想并行导入数据，这样可能快些。

Hive本身很好，但它的元数据一直是个软肋。

并行导入数据，就意味着需要并行访问元数据。这个是一个危险的操作。

Hive对元数据访问依赖于JDO的支持，而在并发情况下，JDO访问MySQL是存在bug的。

具体可参考：http://mail-archives.apache.org/mod_mbox/hive-user/201107.mbox/%3C4F6B25AFFFCAFE44B6259A412D5F9B1033183876@ExchMBX104.netflix.com%3E

建议的方法是，先通过hadoop客户端，并行的把数据导入到hdfs上。

然后在写一个脚本，串行的建表，建分区。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

flyingsk

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

HiveSpark整合原理与代码实例讲解

程序员光剑

07-16

833

Hive-Spark整合原理与代码实例讲解 1. 背景介绍 1.1 问题的由来随着大数据时代的到来，处理海量数据的需求日益增加，Hadoop生态系统中的Hive和Spark因其强大的数据处理能力而被广泛使用。Hive提供了SQL查询

Hive中的分区表

大唐帝国—前营

04-13

1520

下午闲来无事，看了一下好久没有操作的分区表。代码这东西，长时间不写就容易生疏。分区表是Hive的数据表中很重要的一种类型，在实际开发中应用很广，但是，由于其语法较为灵活，实际Coding时很容易出错。于是，我将分区表的一些操作总结如下。 1、创建分区表t1，有id、day两个字段，其中day为分区字段 create table t1 (id int) partitioned

参与评论您还未登录，请先登录后发表或查看评论

Hive使用中的注意事项

cuihaolong的专栏

07-31

527

1.导入数据显示中文的问题数据导入前需将编码格式更改为utf-8再导入hive数据库，这样查询之后的结果才能正常显示中文而不是乱码，并且可以在相应的HiveQL语句中使用中文对某个字段进行判断。 2.查询结果显示列名在hive-site.xml中设置hive.cli.print.header=true即可。 3.对COL求平均数并取整数 ROUND(AVG(COL))

hive使用注意事项

Chelseady的博客

01-02

634

1.Hadoop 和 Hive 都是用 UTF-8 编码的，所以, 所有中文必须是 UTF-8 编码, 才能正常使用备注：中文数据 load 到表里面, 如果字符集不同，很有可能全是乱码需要做转码的, 但是 hive 本身没有函数来做这个 2.hive.exec.compress.output 这个参数, 默认是 false，但是很多时候貌似要单独显式设置一遍否则会对结果做压缩的，如果你的这个...

Hive基本操作

weixin_30628077的博客

03-20

136

1.概述　　上一章《那些年使用Hive踩过的坑》介绍了Hive的基本架构及原理，加下来介绍Hive的基本操作和一些注意事项。 2.基本操作 2.1Create Table 2.1.1介绍  CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；用户可以用 IF NOT EXIST 选项来忽略这个异常。  EXTERNAL 关键字可以让用户创建一...

Hive使用注意事项

qq_40905284的博客

02-28

750

Hive使用注意事项

Hive相关注意事项

qq_43193797的博客

01-17

170

1.load data [locall] inpath 'xxx' into table xxxxx 如果是本地路径,其实就是一次put上传操作如果路径是HDFS,其实是一次mv操作 2.创建分区表partitioned by:字段不能和表中列的字段重复 3.创建分桶表cluster by:必须是表中的某列的字段 4.order by :相当于全排序,只有一个reducer 5....

Ambari下Hive3.0升级到Hive4.0

03-25

以下是详细的升级步骤和注意事项： 1. **版本兼容性检查**：首先，确保你的 Ambari 版本与 Hive 4.0 兼容。通常，Ambari 的新版本会支持更高级的 Hadoop 和 Hive 组件。检查 Ambari 官方文档以确认兼容性。 2. **...

hive jdbc驱动 2.5.15 及 2.6.1两个版本

01-26

5. **使用注意事项** - **配置**：正确配置Hive JDBC驱动的JDBC URL、用户名和密码，确保连接成功。 - **版本兼容性**：确保驱动版本与Hive服务端版本匹配，避免兼容性问题。 - **安全考虑**：使用SSL加密连接以...

Hive官方使用手册——DDL使用说明

三米学习笔记杂货铺

03-28

4031

本文为自己翻译的译文，原文地址：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDLHive官方使用手册——DDL使用说明Hive Data Definition Language概述这里是HiveQL DDL语法说明文档包括:CREATE DATABASE/SCHEMA, TABLE, VIEW, FUNCTIO...

Hive 数据仓库建设方案

最新发布

程序员光剑

08-02

1131

随着互联网公司、大型电子商务平台等业务的不断发展，海量的数据产生，对企业经营管理产生了深远的影响。数据仓库（Data Warehouse）作为数据集成、数据分析和报表展示的关键组件，广泛应用于企业各个角落，是实现数据驱动决策的重要工具之一。Hive数据仓库就是基于Hadoop生态圈的一个开源分布式数据仓库系统。Hive可以将结构化的数据存储在HDFS上，并通过SQL查询语言进行分析处理。

hive注意事项

灿若星辰丶的博客

07-26

781

（1）hive中创建的表存储在mysql中和hdfs的/user/hive/warehouse路径下表中的元数据存储在mysql中（2）hive中创建的外部表在工作中最常用。假设hive中已经创建了rel数据库，hive中创建的外部表在mysql中和/user/hive/warehouse/data目录下，删除外部表时，数据库中表被删除，但是/user/hive/warehouse/dat...

hive sql 注意事项

Linzhongyilisha的专栏

06-13

667

如果是按时间分区的表，查询时一定要使用分区限制，如果没有分区限制，会从该表的所有数据里面遍历。注意sql中or的使用，or 这个逻辑必须单独括起来，否则可能引起无分区限制，下面举个例子，想查询到的是gd或gx的某天的数据。 Select x from t where ds=d1 and province=’gd’ or province=’gx’ 该语句会从所有的分区里面查询！也没有

Hive 注意事项与扩展特性

写博客只为学习

04-11

717

1. 使用HIVE注意点字符集 Hadoop和Hive都是用UTF-8编码的，所以, 所有中文必须是UTF-8编码, 才能正常使用。备注：中文数据load到表里面,，如果字符集不同，很有可能全是乱码需要做转码的，但是hive本身没有函数来做这个。压缩 hive.exec.compress.output 这个参数，默认是false，但是很多时候貌似要单独显式设置一遍，否则会对结果做压

Hive Sql使用注意点记录

shengpli′s blog

06-25

115

1.单独的 DISTINCT 关键字只能放在开头，放在其它位置会报错；但如果是配合其它的函数使用，比如 COUNT(DISTINCT a) 则可以任意位置 2.想要在like方法中调用函数，要用concat拼接 like CONCAT('%',from_unixtime(unix_timestamp(),'yyyy-MM-dd'),'%') ...

Hive的基本操作和一些注意事项

岚风尘雨吾独醉、

08-20

123

https://www.imooc.com/article/9265

Hive学习笔记注意事项

weixin_43779531的博客

11-29

191

CREATE DATABASE IF NOT EXISTS DBNAME DB property 必然是配key value desc database extended d5_hive_2; hive查看详细信息 set hive.cli.print.current.db=true; 创建是有用的，切换是有用的查看主要是看那个目录生产上100%不使用 cascade int bigint ...

HIVE开发注意事项

原创学无止尽

03-30

2069

HIVE开发注意事项 1 HIVE开发注意事项 1.1 始终保持怀疑的态度来使用Hive 1.2 HIVE环境中账户分类 1）目前hive分为logana和payods两个应用用户，前者用作日志分析，后者用作内容分析，与gp保持一致 1.3 数据存储及物理文件目录 1）目录结构:payods作为“内容”这边的总目录，下面二级目录以数据层次划分，数据层

hive的码表查询注意事项

04-24

当进行Hive的码表查询时，需要注意以下几点： 1. 查询前需确认码表是否存在，可以通过SHOW TABLES命令查询。 2. 码表查询通常使用SELECT语句，需要注意SELECT后的字段和FROM后的表名。 3. 码表字段名和实际数据存储的名称可能不同，需要对应好。 4. 码表查询的数据较多时，需要通过WHERE条件筛选出需要的数据，否则查询时间可能较长。 5. 查询完成后，需要注意释放资源，可以使用CLOSE语句关闭查询。