![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive
文章平均质量分 76
Mike_H
这个作者很懒,什么都没留下…
展开
-
Hive_4. DML -- Order & Sort
Hive基于HADOOP来执行分布式程序的,和普通单机程序不同的一个特点就是最终的数据会产生多个子文件,每个reducer节点都会处理partition给自己的那份数据产生结果文件( 通过该命令可以将reduce生成的文件整合到一起:hdfs dfs –getmerge hdfs://:8020/user/dayongd/output /tmp/test ),这导致了在HADOOP环境下很原创 2015-12-03 15:16:21 · 876 阅读 · 0 评论 -
Hadoop 列式存储引擎
相比传统的行式存储引擎,列式存储引擎具有更高的压缩比,更少的IO操作而备受青睐(注:列式存储不是万能高效的,很多场景下行式存储仍更加高效),尤其是在数据列(column)数很多,但每次操作仅针对若干列的情景,列式存储引擎的性价比更高。在互联网大数据应用场景下,大部分情况下,数据量很大且数据字段数目很多,但每次查询数据只针对其中的少数几行,这时候列式存储是极佳的选择,目前在开源实现中,最有名的列原创 2015-12-01 15:13:25 · 1618 阅读 · 0 评论 -
Hive - 数据仓库的性能优化
没办法,一看到好的文章,就忍不住摘抄下来。这篇文章已经放在有道笔记里面好几个月了,还是赶紧晒出来吧,面对发霉了!文章源路径:http://itindex.net/detail/52503-%E6%95%B0%E6%8D%AE%E4%BB%93%E5%BA%93-sql-%E6%80%A7%E8%83%BD一个Hive查询生成多个Map Reduce Job,一个Map Reduce J转载 2015-12-01 15:40:16 · 1353 阅读 · 0 评论 -
Hive 学习大纲
学习内容:第一部分:Hive的环境搭建、基本操作、存储类型与复合数据类型主要介绍: Hive的安装、Hive的负载均衡搭建、Hive的访问方式、Hive的数据类型、Hive的CLI操作介绍;TextFile、Sequence File、RCFile、Hive的自定输入格式、数据结构;Hive表的创建,内部表和外部表,表的分区,删除表,修改表,查询语句以及where语句实战:搭建原创 2015-12-01 16:17:41 · 1239 阅读 · 0 评论 -
Hive 参数介绍以及优化记录
本文参考:Hive 的参数说明:http://www.geedoo.info/hive-parameter-description.html Hive 工作中优化记录:http://www.geedoo.info/hive-optimization-notes.html Hive 配置参数详细介绍:http://www.a转载 2015-12-01 15:48:44 · 1288 阅读 · 0 评论 -
Hive 数据倾斜 (Data Skew) 总结
转载本篇文章主要是为了介绍接下来的 Hive Join 优化 和 Parquet 谓词下推功能。原文地址 : http://www.mamicode.com/info-detail-500353.html倾斜的原因: 使map的输出数据更均匀的分布到reduce中去,是我们的最终目标。由于Hash算法的局限性,按key Hash会或多或少的造成数据倾斜。大量经验表明数据倾转载 2015-12-02 14:57:07 · 6213 阅读 · 0 评论 -
Hive_3. DDL -- 数据库 & 内部表 & 外部表
Github 源码:https://github.com/Hanmourang原创 2015-11-30 18:00:58 · 1261 阅读 · 0 评论 -
Hive_1. 数据存储 & 压缩
Github 源码:https://github.com/Hanmourang原创 2015-11-29 18:53:54 · 2919 阅读 · 0 评论 -
Parquet_1. 使用谓词下推和映射来优化 Job
Github 源码:https://github.com/Hanmourang原创 2015-12-03 02:15:22 · 2633 阅读 · 0 评论 -
Hive_8. UDF & UDAF -- 待完善
先完善列表结构,会后续填充内容原创 2015-12-03 15:26:41 · 614 阅读 · 0 评论 -
Hive_9. Hive Streaming -- 待完善
先完善列表结构,会后续填充内容原创 2015-12-03 15:30:40 · 533 阅读 · 0 评论 -
Hive_11. Join 总结 -- 待完善
先完善列表结构,会后续填充内容原创 2015-12-03 15:36:33 · 369 阅读 · 0 评论 -
采集日志到 Hive
本文源于:http://blog.javachen.com/2014/07/25/collect-log-to-hive.html我们现在的需求是需要将线上的日志以小时为单位采集并存储到 hive 数据库中,方便以后使用 mapreduce 或者 impala 做数据分析。为了实现这个目标调研了 flume 如何采集数据到 hive,其他的日志采集框架尚未做调研。日志压缩f转载 2015-12-03 15:40:35 · 1332 阅读 · 0 评论 -
Hive_10. Hive中常用的 SerDe 和 当前社区的状态
最近在 Google 上看到一篇在 Hive 中利用正则表达式来自定义反序列化处理文本文件。百度后发现这块知识目前还没有人系统的总结一下。所以我就不才把之前记录的资料跟大家分享一下:SerDe 是Serializer 和 Deserializer 的简称。它是 Hive用来处理记录并且将它们映射到 Hive 表中的字段数据类型。为了更好的阐述使用 SerDe 的场景,我们需要了解一下 Hi原创 2015-12-03 15:32:49 · 11641 阅读 · 1 评论 -
Avro技术应用_8. 使用 Sqoop 加载数据的时候使用 Avro 格式进行编码 -- 带完善
本节将跟大家讨论一下如何利用 Sqoop 从 MySQL 中抽取Avro格式数据,再利用 Sqoop 将数据导入到 Hive 中具体内容将会在后续进行完善,敬请期待原创 2015-12-06 14:42:22 · 959 阅读 · 0 评论 -
Parquet_3. 在 Impala, Hive, Pig, MR中使用 Parquet File -- 待完善
本节将跟大家讨论一下如何在 Impala,Hive,Pig,MapReduce 中使用列式存储格式的文件具体内容将会在后续进行完善,敬请期待原创 2015-12-06 23:39:26 · 1113 阅读 · 0 评论 -
Hive_4. DML -- 数据转换
前面介绍了 Hive 中的 DDL 语言,接下来我们将具体看看 HIve 中对数据的具体操作。本篇将主要探讨如何使用 LOAD, INSERT, IMPORT 和 EXPORT关键词来进行数据转换操作。1. 数据转换 – LOAD在 Hive 中可以通过 LOAD 关键词来移动数据。数据移动代表将数据从原有路径移到目标路径中,相当于剪切操作。以下展示原创 2015-12-01 11:30:38 · 819 阅读 · 0 评论 -
Hive 动态分区 & 静态分区
本文转自:http://www.geedoo.info/hive-dynamic-partitions-and-static-partitioning.html 参考:http://www.crazyant.net/1197.htmlHIVE默认是静态分区。但是有时候可能需要动态创建不同的分区来区分不同的分类。HIVE中创建分区表没有什么复杂的分区类型(范围分区、转载 2015-12-01 10:54:30 · 1205 阅读 · 0 评论 -
Hive体系结构
本文参考于:http://blog.csdn.net/javaman_chen/article/details/8423771hiveserverhiveserver启动方式:hive --service hiveserverHiveServer支持多种连接方式:Thrift、JDBC、ODBCmetastoremetastore用来存储hive的元数据信息(表转载 2015-11-30 13:28:47 · 392 阅读 · 0 评论 -
Hive优化_1. 数据文件优化篇
之前转载了一篇。博主总结的很不错。这里本人将自己平时积累的资料汇总了一下,来补充一下这篇文章:针对方法上篇的优化方法1,2,3 主要建立在 Hive 触发了一个 MapReduce Job。但是我们都知道,启用 MapReduce Job 会消耗系统开销的(从我这篇博文 Hive_4.DDL -- 数据库&内部表&外部表 可以发现当使用 Like 关键词的时候效率比 CTAS 要快很多倍)原创 2015-12-02 13:40:08 · 2120 阅读 · 0 评论 -
Parquet_2. 在 Impala/Hive 中使用 Parquet 格式存储数据
在之前我们已经介绍过在 Hive 中使用 Avro,Parquet 格式来存储数据。今天我们将介绍一下如何在 Impala中使用 Parquet 格式。1. 跟 Hive 中一样,我们在创建表的时候可以通过 STORED AS PARQUET 语句来指定文件的存储格式。CREATE TABLE stocks_parquet LIKE stocks STORED AS PARQUET原创 2015-12-03 03:04:31 · 13819 阅读 · 0 评论 -
Hive_4. DML -- Functions & Operators & Transactions
今天跟大家总结一下 Hive 中常见的函数,以及事务操作。为了进一步管理数据,我们可以在 Hive 中使用表达式,运算符,和函数来转换数据。Hive 维基百科提供了丰富了表达式和函数 (https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF)。在这里我就不想重复所有的函数和表达式,挑出一些个人认为在原创 2015-12-03 15:17:58 · 657 阅读 · 0 评论 -
Hive Projects_1. SQL Windowing & 分区表函数 -- 带完善
项目源码:https://github.com/hbutani/SQLWindowing项目介绍:https://github.com/hbutani/SQLWindowing/wikiPPT 介绍:http://www.slideshare.net/Hadoop_Summit/analytical-queries-with-hive目前正在研究该项目源码,会在后续进行更新,有原创 2015-12-10 21:49:23 · 771 阅读 · 0 评论 -
Hive 运算符 & 内置函数详解 -- 适合关键词查找
说实话,该博客排版太零乱,但是不影响关键词查找。转发过来以供以后参考:http://blog.sina.com.cn/s/blog_9f488855010179pt.html1.内置运算符1.1关系运算符运算符类型说明A = B所有原始类型如果A与B相等,返回TRUE,否则返回FALSEA ==转载 2015-12-10 22:50:33 · 3034 阅读 · 0 评论 -
Hive配置文件中配置项的含义详解 -- 收藏版
本篇文章转自:http://www.aboutyun.com/thread-7548-1-1.htmlPreface:1.hive输出格式的配置项是哪个?2.hive被各种语言调用如何配置?3.hive提交作业是在hive中还是hadoop中?4.一个查询的最后一个map/reduce任务输出是否被压缩的标志,通过哪个配置项?5.当用户自定义了UDF或者SerDe,这些插件转载 2015-12-10 16:55:50 · 1112 阅读 · 0 评论 -
Hive ACID 特性 -- 0.13.0
本文翻译于:https://cwiki.apache.org/confluence/display/Hive/Hive+Transactions 转载于:http://www.csdn.net/article/2014-04-23/2819438-Cloud-Hive需要提醒的是,当前Hive版本是 0.14.0。之所以要添加这篇文章,是为后续的文章做铺垫。摘要:Hive翻译 2015-12-10 20:17:40 · 955 阅读 · 0 评论 -
分析函数_PERCENT_RANK -- SQL Server 2012 & Hive
刚才已经介绍了 CUME_DIST 在 SQL Server 2012 (Hive)中的应用。因为在 Hive 中的语法跟 Server2012 中相同,所以我这里就不过多叙述 Hive 中使用的细节了。PERCENT_RANK() 函数会返回当前查询结果集和分区的一个相对值。如果你希望进一步了解该函数,可以参考:https://en.wikipedia.org/wiki/Percen原创 2015-12-12 22:11:47 · 1426 阅读 · 0 评论 -
Row_number & Rank & Dense_Rank
无论是传统数据库还是 Hadoop 数据仓库 Hive,我们都会涉及到窗口函数。今天利用 SQL Server 跟大家总结一下这Rank, Dense_rank, Row_number 三种函数的使用场景及区别:1. Rank() vs Dense_Rank()Rank() 会将数据进行排序。同一个分区下的对应的值从1开始递增,对于排序相同的字段拥有相同的排序值。不同的字段对应着自原创 2015-12-12 13:08:00 · 653 阅读 · 0 评论 -
分析函数_CUME_DIST -- SQL Server 2012 & Hive
最近在整理 Hie 分析函数资料的时候,看到了 CUME_DIST,百度后还是不知其意。于是乎用起了之前介绍的 Webcrawler 搜索引擎 :http://www.webcrawler.com/发现 SQL Server中也包含该分析函数。接下来让我们看看如何在 SQL Server 2012 中使用该分析函数,以帮助大家深入理解 CUME_DIST 函数在 Hive 中的使用。根据原创 2015-12-12 15:50:39 · 1256 阅读 · 0 评论 -
Hive_6. 数据聚合 -- Group By & Grouping_SETS & RollUp & CUBE & Having
先完善列表结构,会后续填充内容原创 2015-12-03 15:24:25 · 11715 阅读 · 0 评论 -
Hive_5. Hive QL -- Hive 查询优化
HiveQL 查询 _1 (翻译于 《Programing Hive》):http://flyingdutchman.iteye.com/blog/1869472HiveQL 查询 _2 (翻译于 《Programing Hive》):http://flyingdutchman.iteye.com/blog/1869621HiveQL 查询 _3 (翻译于 《Programing Hive》):h原创 2015-12-03 15:21:45 · 1485 阅读 · 0 评论 -
Hive_7. 数据抽样
当数据规模不断膨胀时,我们需要找到一个数据的子集来加快数据分析效率。因此我们就需要通过筛选和分析数据集为了进行模式 & 趋势识别。目前来说有三种方式来进行抽样:随机抽样,桶表抽样,和块抽样。1 随机抽样(Random sampling):使用 RAND()函数和 LIMIT 关键字来获得抽样数据。DISTRIBUTE 和 SORT 关键字在这里用来确保 mappers 和原创 2015-12-03 15:25:40 · 2877 阅读 · 0 评论 -
Hive_3. DDL -- 分区表 & 桶表 & 视图
Hive 分区表默认情况下,Hive 的query 会查询整张表。当遇道大表是,查询性能会变得非常缓慢。你可以通过创建分区表来解决这个问题,Hive 中的分区表跟 RDBMS 中非常相似。在 Hive 中,每个分区表都关联一个预分区的列来存储这张表在 HDFS 路径下的子目录。当查询分区表的时候,只会查询所需要的分区路径下的数据,这样使得 I/O 和 查询时间变得更加高原创 2015-12-01 00:00:37 · 1321 阅读 · 0 评论 -
Hive_2. 数据类型
Github 源码:https://github.com/Hanmourang原创 2015-11-30 11:48:00 · 2039 阅读 · 0 评论 -
Avro技术应用_3. 利用 Hive 表处理 Avro 数据
Github 源码:https://github.com/Hanmourang原创 2015-11-29 18:14:57 · 2769 阅读 · 0 评论