Hive_Mike_H的博客-CSDN博客

Hive

关注

文章平均质量分 76

关注数：文章数：35 文章阅读量：86380 文章收藏量：44

作者: Mike_H

这个作者很懒，什么都没留下…

展开

Hive_4. DML -- Order & Sort

Hive基于HADOOP来执行分布式程序的，和普通单机程序不同的一个特点就是最终的数据会产生多个子文件，每个reducer节点都会处理partition给自己的那份数据产生结果文件( 通过该命令可以将reduce生成的文件整合到一起：hdfs dfs –getmerge hdfs://:8020/user/dayongd/output /tmp/test )，这导致了在HADOOP环境下很

原创 2015-12-03 15:16:21 · 876 阅读 · 0 评论
Hadoop 列式存储引擎

相比传统的行式存储引擎，列式存储引擎具有更高的压缩比，更少的IO操作而备受青睐（注：列式存储不是万能高效的，很多场景下行式存储仍更加高效），尤其是在数据列（column）数很多，但每次操作仅针对若干列的情景，列式存储引擎的性价比更高。在互联网大数据应用场景下，大部分情况下，数据量很大且数据字段数目很多，但每次查询数据只针对其中的少数几行，这时候列式存储是极佳的选择，目前在开源实现中，最有名的列

原创 2015-12-01 15:13:25 · 1618 阅读 · 0 评论
Hive - 数据仓库的性能优化

没办法，一看到好的文章，就忍不住摘抄下来。这篇文章已经放在有道笔记里面好几个月了，还是赶紧晒出来吧，面对发霉了！文章源路径：http://itindex.net/detail/52503-%E6%95%B0%E6%8D%AE%E4%BB%93%E5%BA%93-sql-%E6%80%A7%E8%83%BD一个Hive查询生成多个Map Reduce Job，一个Map Reduce J

转载 2015-12-01 15:40:16 · 1353 阅读 · 0 评论
Hive 学习大纲

学习内容：第一部分：Hive的环境搭建、基本操作、存储类型与复合数据类型主要介绍： Hive的安装、Hive的负载均衡搭建、Hive的访问方式、Hive的数据类型、Hive的CLI操作介绍；TextFile、Sequence File、RCFile、Hive的自定输入格式、数据结构；Hive表的创建，内部表和外部表，表的分区，删除表，修改表，查询语句以及where语句实战：搭建

原创 2015-12-01 16:17:41 · 1239 阅读 · 0 评论
Hive 参数介绍以及优化记录

本文参考：Hive 的参数说明：http://www.geedoo.info/hive-parameter-description.html Hive 工作中优化记录：http://www.geedoo.info/hive-optimization-notes.html Hive 配置参数详细介绍：http://www.a

转载 2015-12-01 15:48:44 · 1288 阅读 · 0 评论
Hive 数据倾斜 (Data Skew) 总结

转载本篇文章主要是为了介绍接下来的 Hive Join 优化和 Parquet 谓词下推功能。原文地址 : http://www.mamicode.com/info-detail-500353.html倾斜的原因：　　使map的输出数据更均匀的分布到reduce中去，是我们的最终目标。由于Hash算法的局限性，按key Hash会或多或少的造成数据倾斜。大量经验表明数据倾

转载 2015-12-02 14:57:07 · 6213 阅读 · 0 评论
Hive_3. DDL -- 数据库 & 内部表 & 外部表

Github 源码：https://github.com/Hanmourang

原创 2015-11-30 18:00:58 · 1261 阅读 · 0 评论
Hive_1. 数据存储 & 压缩

Github 源码：https://github.com/Hanmourang

原创 2015-11-29 18:53:54 · 2919 阅读 · 0 评论
Parquet_1. 使用谓词下推和映射来优化 Job

Github 源码：https://github.com/Hanmourang

原创 2015-12-03 02:15:22 · 2633 阅读 · 0 评论
Hive_8. UDF & UDAF -- 待完善

先完善列表结构，会后续填充内容

原创 2015-12-03 15:26:41 · 614 阅读 · 0 评论
Hive_9. Hive Streaming -- 待完善

先完善列表结构，会后续填充内容

原创 2015-12-03 15:30:40 · 533 阅读 · 0 评论
Hive_11. Join 总结 -- 待完善

先完善列表结构，会后续填充内容

原创 2015-12-03 15:36:33 · 369 阅读 · 0 评论
采集日志到 Hive

本文源于：http://blog.javachen.com/2014/07/25/collect-log-to-hive.html我们现在的需求是需要将线上的日志以小时为单位采集并存储到 hive 数据库中，方便以后使用 mapreduce 或者 impala 做数据分析。为了实现这个目标调研了 flume 如何采集数据到 hive，其他的日志采集框架尚未做调研。日志压缩f

转载 2015-12-03 15:40:35 · 1332 阅读 · 0 评论
Hive_10. Hive中常用的 SerDe 和当前社区的状态

最近在 Google 上看到一篇在 Hive 中利用正则表达式来自定义反序列化处理文本文件。百度后发现这块知识目前还没有人系统的总结一下。所以我就不才把之前记录的资料跟大家分享一下：SerDe 是Serializer 和 Deserializer 的简称。它是 Hive用来处理记录并且将它们映射到 Hive 表中的字段数据类型。为了更好的阐述使用 SerDe 的场景，我们需要了解一下 Hi

原创 2015-12-03 15:32:49 · 11641 阅读 · 1 评论
Avro技术应用_8. 使用 Sqoop 加载数据的时候使用 Avro 格式进行编码 -- 带完善

本节将跟大家讨论一下如何利用 Sqoop 从 MySQL 中抽取Avro格式数据，再利用 Sqoop 将数据导入到 Hive 中具体内容将会在后续进行完善，敬请期待

原创 2015-12-06 14:42:22 · 959 阅读 · 0 评论
Parquet_3. 在 Impala, Hive, Pig, MR中使用 Parquet File -- 待完善

本节将跟大家讨论一下如何在 Impala，Hive，Pig，MapReduce 中使用列式存储格式的文件具体内容将会在后续进行完善，敬请期待

原创 2015-12-06 23:39:26 · 1113 阅读 · 0 评论
Hive_4. DML -- 数据转换

前面介绍了 Hive 中的 DDL 语言，接下来我们将具体看看 HIve 中对数据的具体操作。本篇将主要探讨如何使用 LOAD, INSERT, IMPORT 和 EXPORT关键词来进行数据转换操作。1. 数据转换 – LOAD在 Hive 中可以通过 LOAD 关键词来移动数据。数据移动代表将数据从原有路径移到目标路径中，相当于剪切操作。以下展示

原创 2015-12-01 11:30:38 · 819 阅读 · 0 评论
Hive 动态分区 & 静态分区

本文转自：http://www.geedoo.info/hive-dynamic-partitions-and-static-partitioning.html 参考：http://www.crazyant.net/1197.htmlHIVE默认是静态分区。但是有时候可能需要动态创建不同的分区来区分不同的分类。HIVE中创建分区表没有什么复杂的分区类型(范围分区、

转载 2015-12-01 10:54:30 · 1205 阅读 · 0 评论
Hive体系结构

本文参考于：http://blog.csdn.net/javaman_chen/article/details/8423771hiveserverhiveserver启动方式：hive --service hiveserverHiveServer支持多种连接方式：Thrift、JDBC、ODBCmetastoremetastore用来存储hive的元数据信息(表

转载 2015-11-30 13:28:47 · 392 阅读 · 0 评论
Hive优化_1. 数据文件优化篇

之前转载了一篇。博主总结的很不错。这里本人将自己平时积累的资料汇总了一下，来补充一下这篇文章：针对方法上篇的优化方法1,2,3 主要建立在 Hive 触发了一个 MapReduce Job。但是我们都知道，启用 MapReduce Job 会消耗系统开销的(从我这篇博文 Hive_4.DDL -- 数据库&内部表&外部表可以发现当使用 Like 关键词的时候效率比 CTAS 要快很多倍)

原创 2015-12-02 13:40:08 · 2120 阅读 · 0 评论
Parquet_2. 在 Impala/Hive 中使用 Parquet 格式存储数据

在之前我们已经介绍过在 Hive 中使用 Avro，Parquet 格式来存储数据。今天我们将介绍一下如何在 Impala中使用 Parquet 格式。1. 跟 Hive 中一样，我们在创建表的时候可以通过 STORED AS PARQUET 语句来指定文件的存储格式。CREATE TABLE stocks_parquet LIKE stocks STORED AS PARQUET

原创 2015-12-03 03:04:31 · 13819 阅读 · 0 评论
Hive_4. DML -- Functions & Operators & Transactions

今天跟大家总结一下 Hive 中常见的函数，以及事务操作。为了进一步管理数据，我们可以在 Hive 中使用表达式，运算符，和函数来转换数据。Hive 维基百科提供了丰富了表达式和函数 (https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF)。在这里我就不想重复所有的函数和表达式，挑出一些个人认为在

原创 2015-12-03 15:17:58 · 657 阅读 · 0 评论
Hive Projects_1. SQL Windowing & 分区表函数 -- 带完善

项目源码：https://github.com/hbutani/SQLWindowing项目介绍：https://github.com/hbutani/SQLWindowing/wikiPPT 介绍：http://www.slideshare.net/Hadoop_Summit/analytical-queries-with-hive目前正在研究该项目源码，会在后续进行更新，有

原创 2015-12-10 21:49:23 · 771 阅读 · 0 评论
Hive 运算符 & 内置函数详解 -- 适合关键词查找

说实话，该博客排版太零乱，但是不影响关键词查找。转发过来以供以后参考：http://blog.sina.com.cn/s/blog_9f488855010179pt.html1.内置运算符1.1关系运算符运算符类型说明A = B所有原始类型如果A与B相等,返回TRUE,否则返回FALSEA ==

转载 2015-12-10 22:50:33 · 3034 阅读 · 0 评论
Hive配置文件中配置项的含义详解 -- 收藏版

本篇文章转自：http://www.aboutyun.com/thread-7548-1-1.htmlPreface：1.hive输出格式的配置项是哪个？2.hive被各种语言调用如何配置？3.hive提交作业是在hive中还是hadoop中？4.一个查询的最后一个map/reduce任务输出是否被压缩的标志，通过哪个配置项？5.当用户自定义了UDF或者SerDe，这些插件

转载 2015-12-10 16:55:50 · 1112 阅读 · 0 评论
Hive ACID 特性 -- 0.13.0

本文翻译于：https://cwiki.apache.org/confluence/display/Hive/Hive+Transactions 转载于：http://www.csdn.net/article/2014-04-23/2819438-Cloud-Hive需要提醒的是，当前Hive版本是 0.14.0。之所以要添加这篇文章，是为后续的文章做铺垫。摘要：Hive

翻译 2015-12-10 20:17:40 · 955 阅读 · 0 评论
分析函数_PERCENT_RANK -- SQL Server 2012 & Hive

刚才已经介绍了 CUME_DIST 在 SQL Server 2012 （Hive）中的应用。因为在 Hive 中的语法跟 Server2012 中相同，所以我这里就不过多叙述 Hive 中使用的细节了。PERCENT_RANK() 函数会返回当前查询结果集和分区的一个相对值。如果你希望进一步了解该函数，可以参考：https://en.wikipedia.org/wiki/Percen

原创 2015-12-12 22:11:47 · 1426 阅读 · 0 评论
Row_number & Rank & Dense_Rank

无论是传统数据库还是 Hadoop 数据仓库 Hive，我们都会涉及到窗口函数。今天利用 SQL Server 跟大家总结一下这Rank, Dense_rank, Row_number 三种函数的使用场景及区别：1. Rank() vs Dense_Rank()Rank() 会将数据进行排序。同一个分区下的对应的值从1开始递增，对于排序相同的字段拥有相同的排序值。不同的字段对应着自

原创 2015-12-12 13:08:00 · 653 阅读 · 0 评论
分析函数_CUME_DIST -- SQL Server 2012 & Hive

最近在整理 Hie 分析函数资料的时候，看到了 CUME_DIST，百度后还是不知其意。于是乎用起了之前介绍的 Webcrawler 搜索引擎：http://www.webcrawler.com/发现 SQL Server中也包含该分析函数。接下来让我们看看如何在 SQL Server 2012 中使用该分析函数，以帮助大家深入理解 CUME_DIST 函数在 Hive 中的使用。根据

原创 2015-12-12 15:50:39 · 1256 阅读 · 0 评论
Hive_6. 数据聚合 -- Group By & Grouping_SETS & RollUp & CUBE & Having

先完善列表结构，会后续填充内容

原创 2015-12-03 15:24:25 · 11715 阅读 · 0 评论
Hive_5. Hive QL -- Hive 查询优化

HiveQL 查询 _1 (翻译于《Programing Hive》)：http://flyingdutchman.iteye.com/blog/1869472HiveQL 查询 _2 (翻译于《Programing Hive》)：http://flyingdutchman.iteye.com/blog/1869621HiveQL 查询 _3 (翻译于《Programing Hive》)：h

原创 2015-12-03 15:21:45 · 1485 阅读 · 0 评论
Hive_7. 数据抽样

当数据规模不断膨胀时，我们需要找到一个数据的子集来加快数据分析效率。因此我们就需要通过筛选和分析数据集为了进行模式 & 趋势识别。目前来说有三种方式来进行抽样：随机抽样，桶表抽样，和块抽样。1 随机抽样(Random sampling)：使用 RAND()函数和 LIMIT 关键字来获得抽样数据。DISTRIBUTE 和 SORT 关键字在这里用来确保 mappers 和

原创 2015-12-03 15:25:40 · 2877 阅读 · 0 评论
Hive_3. DDL -- 分区表 & 桶表 & 视图

Hive 分区表默认情况下，Hive 的query 会查询整张表。当遇道大表是，查询性能会变得非常缓慢。你可以通过创建分区表来解决这个问题，Hive 中的分区表跟 RDBMS 中非常相似。在 Hive 中，每个分区表都关联一个预分区的列来存储这张表在 HDFS 路径下的子目录。当查询分区表的时候，只会查询所需要的分区路径下的数据，这样使得 I/O 和查询时间变得更加高

原创 2015-12-01 00:00:37 · 1321 阅读 · 0 评论
Hive_2. 数据类型

Github 源码：https://github.com/Hanmourang

原创 2015-11-30 11:48:00 · 2039 阅读 · 0 评论
Avro技术应用_3. 利用 Hive 表处理 Avro 数据

Github 源码：https://github.com/Hanmourang

原创 2015-11-29 18:14:57 · 2769 阅读 · 0 评论

Hive

作者: Mike_H

Hive_4. DML -- Order & Sort

Hadoop 列式存储引擎

Hive - 数据仓库的性能优化

Hive 学习大纲

Hive 参数介绍以及优化记录

Hive 数据倾斜 (Data Skew) 总结

Hive_3. DDL -- 数据库 & 内部表 & 外部表

Hive_1. 数据存储 & 压缩

Parquet_1. 使用谓词下推和映射来优化 Job

Hive_8. UDF & UDAF -- 待完善

Hive_9. Hive Streaming -- 待完善

Hive_11. Join 总结 -- 待完善

采集日志到 Hive

Hive_10. Hive中常用的 SerDe 和 当前社区的状态

Avro技术应用_8. 使用 Sqoop 加载数据的时候使用 Avro 格式进行编码 -- 带完善

Parquet_3. 在 Impala, Hive, Pig, MR中使用 Parquet File -- 待完善

Hive_4. DML -- 数据转换

Hive 动态分区 & 静态分区

Hive体系结构

Hive优化_1. 数据文件优化篇

Parquet_2. 在 Impala/Hive 中使用 Parquet 格式存储数据

Hive_4. DML -- Functions & Operators & Transactions

Hive Projects_1. SQL Windowing & 分区表函数 -- 带完善

Hive 运算符 & 内置函数详解 -- 适合关键词查找

Hive配置文件中配置项的含义详解 -- 收藏版

Hive ACID 特性 -- 0.13.0

分析函数_PERCENT_RANK -- SQL Server 2012 & Hive

Row_number & Rank & Dense_Rank

分析函数_CUME_DIST -- SQL Server 2012 & Hive

Hive_6. 数据聚合 -- Group By & Grouping_SETS & RollUp & CUBE & Having

Hive_5. Hive QL -- Hive 查询优化

Hive_7. 数据抽样

Hive_3. DDL -- 分区表 & 桶表 & 视图

Hive_2. 数据类型

Avro技术应用_3. 利用 Hive 表处理 Avro 数据

Hive_10. Hive中常用的 SerDe 和当前社区的状态