Hive
修行者 坚守者
Stay hungry Stay foolish
展开
-
hive udf开发超详细手把手教程
转:http://blog.csdn.net/bitcarmanlee/article/details/51249260版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[+]项目需求配置文件新建maven项目UDF具体代码开发maven打包将jar包上传使用udf查询结束语关于Hive的udf介绍,就不多啰嗦了。网上的教转载 2016-12-19 16:26:28 · 2093 阅读 · 0 评论 -
关于Hive中的复杂数据类型Array,Map,Structs的一些使用案例
转:http://blog.csdn.net/gamer_gyt/article/details/52169441版权声明:目录(?)[+]写在前边的话1Array 1创建表 2查看array的元素 3内嵌查询及统计 4如何保存查询结果2Map 1创建表 2普通查看表数据 3使用expl转载 2016-10-25 11:42:54 · 383 阅读 · 0 评论 -
[Hive]从一个经典案例看优化mapred.map.tasks的重要性
转:http://blog.sina.com.cn/s/blog_6ff05a2c0101aqvv.html我所在公司所使用的生产Hive环境的几个参数配置如下:dfs.block.size=268435456hive.merge.mapredfiles=truehive.merge.mapfiles=truehive.merge.size.per.task=256转载 2016-11-03 11:08:55 · 1206 阅读 · 0 评论 -
Hadoop中map数的计算
转:http://blog.sina.com.cn/s/blog_6ff05a2c010178qd.htmlHadoop中在计算一个JOB需要的map数之前首先要计算分片的大小。计算分片大小的公式是:goalSize = totalSize / mapred.map.tasksminSize = max {mapred.min.split.size, minSplitSiz转载 2016-11-03 11:08:14 · 285 阅读 · 0 评论 -
HiveSQL解析过程详解
转:http://www.cnblogs.com/yaojingang/p/5446310.htmlHive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过转载 2016-11-03 11:00:00 · 641 阅读 · 0 评论 -
Hive – Group By 的实现
转:准备数据SELECT uid, SUM(COUNT) FROM logs GROUP BY uid;hive> SELECT * FROM logs;a 苹果 5a 橙子 3a 苹果 2b 烧鸡 1 hive> SELECT uid, SUM(COUNT) FROM logs GROUP BY uid;a 10b 1计算过程转载 2016-11-03 10:58:25 · 254 阅读 · 0 评论 -
原 Hive 中的复合数据结构简介以及一些函数的用法说明
转:https://my.oschina.net/leejun2005/blog/120463目前 hive 支持的复合数据类型有以下几种:map(key1, value1, key2, value2, ...) Creates a map with the given key/value pairsstruct (val1, val2, val3, ...) C转载 2016-10-12 18:50:29 · 644 阅读 · 0 评论 -
HIVE UDF整理:复杂类型长度统计函数,类型转换函数,日期函数
转:http://blog.sina.com.cn/s/blog_81e6c30b0101bu5a.html复杂类型长度统计函数(1)Map类型长度函数: size(Map)语法: size(Map)返回值: int说明: 返回map类型的长度举例:hive> select size(map(’100′,’tom’,’101′,’mary’))转载 2016-10-12 16:58:49 · 705 阅读 · 0 评论 -
Hive_10. Hive中常用的 SerDe 和 当前社区的状态
转:http://blog.csdn.net/mike_h/article/details/50161555版权声明:Github 源码:https://github.com/Hanmourang最近在 Google 上看到一篇在 Hive 中利用正则表达式来自定义反序列化处理文本文件。百度后发现这块知识目前还没有人系统的总结一下。所以我就不才把之前记录的资料跟大家分享转载 2016-09-25 15:09:42 · 1310 阅读 · 0 评论 -
【Kylin实战】Hive复杂数据类型与视图
转:http://www.cnblogs.com/en-heng/p/5443480.html1. 引言在分析广告日志时,会有这样的多维分析需求:曝光、点击用户分别有多少?标签能覆盖多少广告用户?各个标签(标注)类别能覆盖的曝光、点击在各个DSP上所覆盖的用户数……广告数据与标签数据join之后,存储orc file的schema如下转载 2016-10-25 11:45:00 · 1831 阅读 · 0 评论 -
HIVE lateral view
转:http://yugouai.iteye.com/blog/1849902Lateral View语法Sql代码 lateralView: LATERAL VIEW udtf(expression) tableAlias AS columnAlias (',' columnAlias)* fromClause: FROM base转载 2016-10-25 11:46:08 · 219 阅读 · 0 评论 -
LanguageManual LateralView
转:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+LateralViewSkip to end of metadataCreated by Confluence Administrator, last modified byLars Francke onDec 20, 2013转载 2016-10-25 11:51:43 · 311 阅读 · 0 评论 -
Hive中抽取连续多天登录用户
转:http://www.it165.net/database/html/201408/7854.html昨天群上有人发个阿里的面试题,题目描述大概如下:数据源:用户登录表,只有俩个字段,uid和dt试用HQL抽取出连续登录了K天的用户uid第一个想法就是直接用一个UDF解决,按uid分组,把dt收集起来然后在UDF里面判断是否满足条件v转载 2016-12-14 10:00:04 · 2338 阅读 · 0 评论 -
Hive调优(语法与参数层面优化)
转:http://blog.csdn.net/scgaliguodong123_/article/details/45477323版权声明:本文为博主原创文章,未经博主允许不得转载。一、简介 作为企业Hadoop应用的核心产品,Hive承载着FaceBook、淘宝等大佬 95%以上的离线统计,很多企业里的离线统计甚至全由Hive完成,如我所在的电转载 2016-10-31 18:52:49 · 227 阅读 · 0 评论 -
深入浅出数据仓库中SQL性能优化之Hive篇
转:http://www.csdn.net/article/2015-01-13/2823530摘要:Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针对MR中单个步骤的优化,针对MR全局的优化以及针对整个查询的优化。一个转载 2016-10-31 18:48:56 · 416 阅读 · 0 评论 -
一个超长SQL语句的规范书写格式范例.
转:http://blog.csdn.net/only_endure/article/details/4020708版权声明:本文为博主原创文章,未经博主允许不得转载。[c-sharp] view plain copyselect f.*, g.trueworkload from (select a.us转载 2016-10-31 18:43:20 · 958 阅读 · 0 评论 -
hive中order by,sort by, distribute by, cluster by作用以及用法
转:http://blog.csdn.net/jthink_/article/details/38903775版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[+]1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有h转载 2016-10-29 14:24:51 · 213 阅读 · 0 评论 -
Hive 设置map 和 reduce 的个数
转:http://blog.csdn.net/lifuxiangcaohui/article/details/50267023版权声明:本文为博主原创文章,未经博主允许不得转载。一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,i转载 2016-10-29 14:24:27 · 307 阅读 · 0 评论 -
hive原生和复合类型的数据加载和使用
转:http://blog.csdn.net/oopsoom/article/details/26001307原生类型原生类型包括TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY (Hive 0.8.0以上才可用),TIMESTAMP (Hive 0.8.0以上才可用),这些数据加载很容易,只要设置好列转载 2016-10-29 12:37:01 · 197 阅读 · 0 评论 -
Lateral View用法 与 Hive UDTF explode
转:http://blog.csdn.net/oopsoom/article/details/26001307Lateral View是Hive中提供给UDTF的conjunction,它可以解决UDTF不能添加额外的select列的问题。1. Why we need Lateral View?当我们想对hive表中某一列进行split之后,想对其转换成1 to N转载 2016-10-29 12:35:51 · 530 阅读 · 0 评论 -
Hive输入输出记录的过程
转:http://blog.csdn.net/wyc09/article/details/20036917?utm_source=tuicool&utm_medium=referral 版权声明:本文为博主原创文章,未经博主允许不得转载。Hive作为一款构建于Hadoop之上的数据仓库系统,具有良好的异构数据源普遍适用性。Hive内部处理的是记录(Row),任何数据在被Hive处理转载 2016-09-25 15:01:21 · 307 阅读 · 0 评论 -
Hive中的InputFormat、OutputFormat与SerDe
转:https://www.coder4.com/archives/4031前言Hive中,默认使用的是TextInputFormat,一行表示一条记录。在每条记录(一行中),默认使用^A分割各个字段。在有些时候,我们往往面对多行,结构化的文档,并需要将其导入Hive处理,此时,就需要自定义InputFormat、OutputFormat,以及SerDe了。转载 2016-09-25 14:59:52 · 996 阅读 · 0 评论 -
hive Enhanced Aggregation, Cube, Grouping and Rollup
转:https://cwiki.apache.org/confluence/display/Hive/Enhanced+Aggregation,+Cube,+Grouping+and+Rollup转:http://lxw1234.com/archives/2015/04/193.htm转载 2016-04-07 21:59:53 · 238 阅读 · 0 评论 -
hive --Windowing and Analytics Functions
转: http://lxw1234.com/archives/2015/04/185.htm转: https://cwiki.apache.org/confluence/display/Hive/LanguageManual+WindowingAndAnalytics#LanguageManualWindowingAndAnalytics-Examp转载 2016-04-07 17:05:02 · 263 阅读 · 0 评论 -
hive启动问题及解决办法
启动 Hive此时切换用户至 hadoop 用户,在命令行输入“hive”命令进行测试。hadoop@ubuntu:~$ hiveWARNING: org.apache.hadoop.metrics.jvm.EventCounter is deprecated. Please use org.apache.hadoop.log.metrics.EventCounter in all转载 2016-03-22 15:13:23 · 1725 阅读 · 0 评论 -
Hive代码组织及架构简单介绍
转:http://my.oschina.net/u/1243452/blog/173716 hive 源码目录[-]hive三个主要组件其他组件hive辅助组件 Query Processor(hive核心,执行引擎)Compiler流程附带hive执行流程图参考文献hive三个主要组件Serialzers/Deser转载 2016-03-08 15:15:26 · 692 阅读 · 0 评论 -
Hive中的三种不同的数据导出方式介绍
转:http://www.aboutyun.com/thread-7439-1-1.html问题导读:1.导出本地文件系统和hdfs文件系统区别是什么?2.带有local命令是指导出本地还是hdfs文件系统?3.hive中,使用的insert与传统数据库insert的区别是什么?4.导出数据如何自定义分隔符?今天我们再谈谈Hive中的三种不同的数转载 2016-03-08 15:12:37 · 354 阅读 · 0 评论 -
hive安装配置与hive的JDBC (hadoop-0.20.2 + hive-0.7.0)
转:http://blog.163.com/huang_zhong_yuan/blog/static/174975283201181371146365/hive安装安装hive的时候参考了http://yp.oss.org.cn/software/show_resource.php?resource_id=270 和http://www.cnblogs.com/flying5/archiv转载 2016-02-22 16:35:07 · 371 阅读 · 0 评论 -
配置hive元数据存储在mysql中
转:http://blog.sina.com.cn/s/blog_3fe961ae0101925l.html默认情况下,Hive的元数据信息存储在内置的Derby数据中。Hive支持将元数据存储在MySQL中,配置过程如下:1.安装MySQL创建用户hadoop$ mysql -u root -pEnter password:进入MySQL后,mysql> CR转载 2016-02-22 16:32:10 · 819 阅读 · 0 评论 -
hive安装遇到的问题
参考:http://www.iteye.com/problems/49859关于安装hive,启动hive后产生此问题:[hadoop@master conf]$ hiveHive history file=/tmp/hadoop/hive_job_log_hadoop_201602221512_1847642902.txthive> show tables;Exception原创 2016-02-22 15:46:41 · 546 阅读 · 0 评论 -
Hive 各版本关键新特性(Key New Feature)介绍
转:http://my.oschina.net/leejun2005/blog/272188 目录[-]1、Hive 0.8.02、Hive 0.9.03、Hive 0.10.04、Hive 0.11.05、Hive 0.12.06、Hive 0.13.07、Hive 0.14.08、hive 1.09、hive 1.110、hive 1转载 2016-04-07 22:01:49 · 4536 阅读 · 0 评论 -
解决从mysql端使用sqoop导入hive端字段类型不匹配问题
在sqoop query“ select * from tablename ”中对字段用mysql函数进行转换原创 2016-04-08 11:36:46 · 3033 阅读 · 0 评论 -
hive元数据库配置、metadata
转:http://www.2cto.com/database/201411/351990.html一、什么是hive元数据? hive元数据就是hive的一些基本的元素,主要包括hive表的基本属性,如下 (1)hive表的数据库名、表名、字段名称与类型、分区字段与类型 (2)表的分区,分区的属性location等 (3)serdeproperties, tblproperties转载 2016-04-11 16:02:30 · 709 阅读 · 0 评论 -
详解Hive的架构、工作原理及安装步骤
转:http://blog.csdn.net/u010330043/article/details/51225021一、Hive是什么? Hive 是基于 Hadoop 构建的一套数据仓库分析系统,它提供了丰富的 SQL 查询方式来分析存储在 Hadoop 分布式文件系统中的数据, 可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,可以将 SQL转载 2016-09-25 13:26:45 · 639 阅读 · 0 评论 -
Hive原理及查询优化
转:http://blog.csdn.net/lw_ghy/article/details/51469753Hive是构建在Hadoop上的数据仓库软件框架,支持使用SQL来读,写和管理大规模数据集合。Hive入门非常简单,功能非常强大,所以非常流行。通常来说,Hive只支持数据查询和加载,但后面的版本也支持了插入,更新和删除以及流式api。Hive具有目前Hadoop上最丰富转载 2016-09-25 13:19:52 · 322 阅读 · 0 评论 -
SQL的WHERE子句中包含多个AND和OR
转:http://my.oschina.net/xinxingegeya/blog/220122 摘要SQL的WHERE子句中包含多个AND和ORSQL的WHERE子句中包含多个AND和OR关于 sql的where子句中包含多个and和or是计算顺序问题,SQL在处理操作时会优先处理and操作,这就是很多人会得到很多错误的原因,举个例子:加入有表prod转载 2016-06-21 10:01:45 · 30826 阅读 · 3 评论 -
sql 中的 and or 并用
转:http://jingyan.baidu.com/article/19020a0a09d37e529c284273.html根据当前时间,查询当前班次。如白班、夜班...工具/原料MSSQL建表方法/步骤1查询数据表数据转载 2016-06-21 10:00:21 · 1922 阅读 · 0 评论 -
HIVE原生和复合类型的数据加载和使用
转:http://yugouai.iteye.com/blog/1849196原生类型原生类型包括TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY (Hive 0.8.0以上才可用),TIMESTAMP (Hive 0.8.0以上才可用),这些数据加载很容易,只要设置好列分隔符,按照列分隔符输出转载 2016-06-29 16:44:59 · 314 阅读 · 0 评论 -
从join on和where执行顺序认识T-SQL查询处理执行顺序
转:http://www.phpddt.com/db/join-on-where.html SQL语句中join连表时on和where后都可以跟条件,那么对查询结果集,执行顺序,效率是如何呢?通过查询资料发现:区别:on是对中间结果进行筛选,where是对最终结果筛选。执行顺序:先进行on的过滤, 而后才进行join。效率:如果是inner join, 放on和转载 2016-05-09 11:09:21 · 437 阅读 · 0 评论 -
深入Oracle的left join中on和where的区别详解
转:http://www.jb51.net/article/38308.htm今天遇到一个求某月所有天数的统计结果,如果某日的结果是0也需要显示出来,即: 日期 交易次数 交易金额 2009-4-01 1 10 2009-4-02 2 2转载 2016-05-09 11:07:52 · 264 阅读 · 0 评论