Hive
文章平均质量分 70
以浪为码
发篇博客以表牛逼。
展开
-
Hive 1. 安装与简单运行
安装Henvealf/文 从官网下载tar包 解压tar -zxvf apache-hive-x.y.z.tar.gz并配置好 Hive 的环境变量:export HIVE_HOME=你的Hive目录export PATH=${HIVE_HOME}/bin:${PATH}现在执行 hive 命令试试,结果失败了:henvealf@Henvealf-PC:/usr/henvealfSoftwar原创 2016-11-30 22:07:03 · 364 阅读 · 0 评论 -
Hive 8. 表查询
表查询现在就来讨论一下各种 Select 语句的使用。排序与聚合和普通的数据库相似, Hive 可以使用标准的 Order By 子句来对数据进行排序。 Order By 会对所有的输入进行一个单线程的全局排序,所以如果数据量比较大,效率会非常缓慢。所以当不需要对所有的数据进行排序时(多数情况下都不需要),可以使用 Hive 自己提供的非标准的 Sort By 来代替,他是依靠 reducer 来进原创 2016-12-01 15:32:21 · 329 阅读 · 0 评论 -
Hive 11. 关于压缩的配置
关于压缩的配置项 Hive 与 Hadoop展示默认值,() 中是所有选项:中间压缩 指的是 map task 与 reduce task 中间数据的压缩,这里推荐使用 CPU 开销低的压缩格式,比如 SnappyCodec。hivehive.exec.compress.intermediate=false --(true/flase)hadoopmapred.compress.map.oupu原创 2016-12-01 15:42:13 · 441 阅读 · 0 评论 -
Hive 10. 压缩存储
本文为翻译,源网页地址 https://cwiki.apache.org/confluence/display/Hive/CompressedStorage 仅限交流使用压缩存储Henvealf/译在 Hive 的表中保持数据压缩,在一些情况下,能够比未压缩存储获得更好的效果,比如在磁盘利用率与查询性能上。你能直接往存储为 TextFile 的表中导入使用了 Gzip 或者 BZip2 格翻译 2016-12-01 15:39:20 · 313 阅读 · 0 评论 -
Hive 9. 用户定义的方法(UDF-User-Defined Functions)
用户自定义方法(函数) 本文为Hadoop 权威指南第四版(英文原版),Hive 章节的部分翻译。仅限交流使用。Henvealf/译有时候 Hive 提供的函数并不能满足我们的需求,Hive 允许用户自己自定义(UDF),可插拔的加入到 Hive 中去使用。主要是用 Java 写,也可以使用其他语言,就是使用流的来实现,这里不做讨论。UDF 一共有三种类型:UDF(User-Defined F翻译 2016-12-01 15:36:50 · 725 阅读 · 0 评论 -
Hive 7. 桶 (Bucket)
桶 (Bucket)理解桶是除分区表之外的Hive另一种组织表的方式。 其实桶组织表的方式和 Shuffle map 端的 partition 很相似,就是将文件中的某个关键数据进行哈希处理(mr 中是键,桶中就是自己指定),然后将哈希结果对一个数(mr 中是 reduce 任务的个数,桶中由用户指定)进行取模,然后根据取模结果放置在相应的文件中。优点有两个好处:第一个就是让查询更加高效。 桶原创 2016-12-01 15:30:19 · 401 阅读 · 0 评论 -
Hive 7. 表分类与表操作
表分类与表操作内部表(管理表)创建表Create table If Not Exists mydb.users ( name String Comment 'user name', salary Float Comment 'user salary', hobby Array<String> Comment 'user hobby')Comment 'descriptio原创 2016-11-30 22:30:39 · 382 阅读 · 0 评论 -
Hive 6. 数据库操作
数据存储一个数据库对应与文件系统中的一个目录。且他们的根目录即是hive.metastore.warehouse.dir配置项来设置的。比如我这里就是 /user/henvealf/hive/warehouse刚开始进入 hive 命令行时,默认位于名为 default 的默认数据库中。其数据目录就在 /user/henvealf/hive/warehouse 下。而对于用户自定义的数据库,将会在原创 2016-11-30 22:27:52 · 298 阅读 · 0 评论 -
Hive 3. 命令行界面
命令行界面命令行界面(CLI)是和 Hive 交互最常见的方式。变量和属性 变量或者属性是在不同的上下文中使用的属于,基本上他们功能是相同的。Hive 中的变量和属性一共有四个命名空间: 命名空间 使用权限 解释 hivevar 可读/可写 用户自定义的变量 (0.8.0之后) hiveconf 可读/可写 Hive 相关的配置文件 system 可读原创 2016-11-30 22:17:04 · 652 阅读 · 0 评论 -
Hive 5. 数据类型
数据类型Hive 中支持大多数的基本数据类型,和3个其他数据库中烧少有的集合数据类型。 基本数据类型包括 numeric, Boolean, string, timstamp等等. 复杂数据类型有: arrays,maps,structs。 见下表:基本数据类型Hive 的基本数据类型与 Java 的数据类型相合,即使一些名字是受了 Mysql 类型的名字的影响。 与Java中的对应关系:原创 2016-11-30 22:20:21 · 7719 阅读 · 0 评论 -
Hive 2. 本地模式,分布式配置
这里假设你已经配置好了 Hadoop 分布模式本地模式的配置如果Hadoop在本地模式下,所有的文件都会存储在本地文件系统中,而不是分布式文件系统中。用户的 job 都在同一个JVM实例中执行所有的任务。如果用户经常使用本地模式,那么就必要为 Derdy metastore_db 配置一个标准的位置。如果用户可以指定一个不同的目录来存储表数据。本地模式下,默认的路径是:file:///user/h原创 2016-11-30 22:13:34 · 1120 阅读 · 0 评论 -
去除 Hive 表中数据的引号 - Henvealf
问题说明有时第三方提供的,导入进 Hive 表中的数据会清洗的不彻底,这里要说的就是遗留引号(“) 的问题。比如 hive> select * from test;1 "tom" 1112 "cat" 2223 "jack" 3334 "hello" 444处理后为hive> select * from test;a b c1 tom 1112原创 2017-03-06 18:01:19 · 15146 阅读 · 1 评论