hadoop&hive
文章平均质量分 85
扫大街的程序员
爱思考、爱沟通、爱review、爱总结、爱读史记、爱跑步、还爱翻墙
展开
-
hive新功能 Cube, Rollup介绍
说明:hive之cube、rollup,还有窗口函数,在传统关系型数据(oracle、sqlserver)中都是有的,用法都很相似。GROUPING SETSGROUPING SETS作为GROUP BY的子句,允许开发人员在GROUP BY语句后面指定多个统计选项,可以简单理解为多条group by语句通过union all把查询结果聚合起来结合起来,下面是几个实例可以帮助我们了原创 2013-12-08 14:15:02 · 27239 阅读 · 3 评论 -
Hive SQL执行计划深度解析
Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力,在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程有转载 2014-06-17 11:12:58 · 7809 阅读 · 1 评论 -
HBase 在淘宝的应用和优化
本文来自于NoSQLFan联合作者@koven2049,他在淘宝从事Hadoop及HBase相关的应用和优化。对Hadoop、HBase都有深入的了解,本文就是其在工作中对HBase的应用优化小结,分享给大家。目 录 [ - ]前言原因应用情况部署、运维和监控测试与发布改进和优化将来计划前言hbase是从 hadoop中分离出来的apache顶级开源项目。由转载 2014-07-02 08:20:52 · 870 阅读 · 0 评论 -
基于HBASE的并行计算架构之rowkey设计篇
1.大数据在HBASE存储、计算以及查询的应用场景海量数据都是事务数据,事务数据都是在时间的基础上产生的。数据的业务时间可能会顺序产生,也可能不会顺序产生,比如某些事务发生在早上10点,但是在下午5点才结束闭并生成出来,这样的数据就会造成存储加载时的时间连续性。另外海量数据的挖掘后产生的是统计数据,统计数据也有时间属性,统计数据如果进行保存必须保证在统计计算之后数据尽量不再变化,如果统计发转载 2014-05-30 11:35:57 · 852 阅读 · 0 评论 -
Presto: Interacting with petabytes of data at Facebook
By Martin TraversoBackgroundFacebook is a data-driven company. Data processing and analytics are at the heart of building and delivering products for the 1 billion+active users of Facebo转载 2014-07-29 09:50:01 · 1227 阅读 · 0 评论 -
Presto:Facebook的分布式SQL查询引擎
背景 Facebook是一家数据驱动的公司。 数据处理和分析是Facebook为10亿多活跃用户开发和交付产品的核心所在。 我门拥有世界上最大的数据仓库之一,存储了大约 300PB 以上的数据。 这些数据被一系列不同种类的程序所使用, 包括传统的数据批处理程序、基于图论的数据分析[1]、机器学习、和实时性的数据分析。 分析人员、数据科学家和工程师需要处理数据、分析数据、不断地改转载 2014-07-29 12:25:11 · 1238 阅读 · 0 评论 -
hbase分区列压缩
Hbase 是一个分布式的、面向列的开源数据库,其实现是建立在google 的bigTable 理论之上,并基于hadoop HDFS文件系统。 Hbase不同于一般的关系型数据库(RDBMS)。是一种适用于非结构化数据存储的数据库,且Hbase是基于列的数据库。 下面的内容基于我们已经安装好hadoop、hbase。 一、hbase shell 介绍转载 2014-07-10 16:12:47 · 1896 阅读 · 0 评论 -
站在hadoop上看hive(公司讲座)
公司内部讲座:http://share.csdn.net/slides/1439站在hadoop的角度,如何优化hive查询原创 2014-02-22 16:17:31 · 860 阅读 · 0 评论 -
Zookeeper你应该了解基础知识
简介Apache ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,由Client和Server构成,Server提供了一致性复制和存储服务,Client包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。ZooKeeper的设计非常易于编程,ZooKeeper维护着一个hierarchal(层次)的名字空间,它采用树形的数据结构,类似于转载 2016-11-22 19:47:49 · 615 阅读 · 0 评论 -
Zookeeper Watch机制
Znode发生变化(Znode本身的增加,删除,修改,以及子Znode的变化)可以通过Watch机制通知到客户端。那么要实现Watch,就必须实现org.apache.zookeeper.Watcher接口,并且将实现类的对象传入到可以Watch的方法中。Zookeeper中所有读操作(getData(),getChildren(),exists())都可以设置Watch选项。Watch事件具有o转载 2016-11-22 19:48:34 · 1234 阅读 · 0 评论 -
Hbase rowkey design
Hbase在淘宝的应用和优化原创 2014-06-03 10:07:00 · 3136 阅读 · 0 评论 -
关于hive中iP地址映射地域调研
说明:日常业务经常涉及到ip映射地域的统计,有一定的使用复杂度,本文结合业界几种现状,做一次综合测试评估。什么是ip地址库通过ip地址获取用户地理位置信息,一般包括的信息由国家、区域(省/州)、城市、街道、经纬度、ISP提供商等信息。质量评价标准粒度。 ip地址库中IP(段)对应的其他信息的精确程度。例如精确到国家还是市、县?不同的应用对IP地址库的粒度要求是不同的原创 2014-03-10 01:13:32 · 8755 阅读 · 4 评论 -
hive是如何判断设置map、reduce个数的
hive是按照输入数据量大小确定reduce个数默认hive.exec.reducers.bytes.per.reducer=1000,000,000 1G(一个reduce处理1G~10G之间数据量,比较合适)也就是说你如果有20G的数据,将会启动20个reduce代码截图如下: if (totalInputFileSize != inputSummary.getLength()原创 2014-01-06 01:57:19 · 9858 阅读 · 0 评论 -
hive运维命令
创建表内部表外部表删除表修改表表重命名增加、 删除分区修改列信息增加列快速查看属性创建表sql语句( 0.11后支持)数据操作创建表内部表说明:hive会管理着数据的生命周期,删除表就会删除数据。(从db导过来的表一般都是内部表)示例:内部表创建hql语句 CREATE TABLE IF NOT EXIST原创 2013-12-08 16:43:25 · 2091 阅读 · 0 评论 -
hive sql执行计划树解析
如下两个sql语句,其实执行时间并没有什么差别,两者执行计划近乎相同,其中查询1抒写更方便hql1:hive -e "use acorn_3g;explain select t.app_id,count(distinct t.uid) from tmp_user_info t join tmp_user_info n on t.uid = n.uid where t.log_date='2原创 2013-12-09 21:39:57 · 7015 阅读 · 0 评论 -
hadoop&hive优化
说明:本文主要涉及hadoop、hive查询统计基础知识及一些进阶方法 MR基础知识重用Text等Writable类型使用StringBuilder通过DistributeCache加载文件(配置文件, 字典等)熟悉掌握并使用Combiner、h Partitioner、Comparator三大神器MR注意事项解析字符串优化谨慎使用全局变量创建过多自定义的C原创 2013-12-10 15:08:25 · 1346 阅读 · 0 评论 -
hive 启动方式及执行流程
启动方式cli bin/hive或者bin/hive --service cli 命令行方式默认,使用最简单,也最麻烦,功能最强大。 RunJar $HIVE_HOME/lib/hive-service-0.11.0.jar org.apache.hadoop.hive.service.HiveSer原创 2013-12-04 01:01:44 · 6056 阅读 · 0 评论 -
hive常见QA
Q:hive支持exist in查询吗?A:支持,select user_id from user_act where app_id in ('237294','215928') and user_id>0;Q:hive是否可以打印列名?A:支持,在执行语句之前先,set hive.cli.print.header=trueQ:hive是否可以设置reduce的个数原创 2013-12-07 18:01:22 · 1498 阅读 · 0 评论 -
hadoop&hive压缩相关说明
对于MR作业,压缩中间数据,可以减少磁盘操作,减少网络传输数据量,进而提交查询速度。对此整理下日常生活中出现的疑惑点。hadoop对每个压缩格式的支持 压缩格式 工具 算法 文件扩展名 多文件 可分割性 DEFLATE 无 DEFLATE .deflate 不 不原创 2014-01-06 01:22:48 · 2740 阅读 · 0 评论 -
关于hive统计周wau、保留率需求的几种思路
说明:程序有快慢之分,业务却有千变万化之状,不同的需求对症下药,选择合适的解法。wau:指的是用户一周之内登陆的独立用户id数wau保留率:指的是后续每周登陆的独立用户id与第一周登陆独立用户id的join,相当于第一周登陆,后续每周也登陆的用户。需求:统计从2013七月份开始每周2013-07-01~2013-07-07,2013-07-08~2013-07-原创 2014-01-09 20:12:51 · 7180 阅读 · 3 评论 -
读hive编程指南
读hive编程指南《Programming Hive》中文版随手记录,红色部分代表本人认为翻译错误,或者原书撰写时不支持,现在支持的功能。3章传统DB:通常会提供限制最大长度的“字符数组”,定长的记录更容易进行建立索引、数据扫描hive:不一定拥有数据文件但必须支持能够使用不同的文件格式,hive根据不同字段间的分隔符来对其进行判断,同时hive强调优化磁盘原创 2014-01-11 17:29:12 · 2454 阅读 · 0 评论 -
最佳日志实践
前言日志用来记录用户操作、系统运行状态等,是一个系统的重要组成部分。然而由于日志并非系统核心功能,通常情况下并不受团队的重视。在出现问题需要通过日志来定位时,才发现日志还存在很多问题。日志记录的好坏直接关系到系统出现问题时定位的速度,同时可以通过对日志的观察和分析,提前发现系统可能的风险,避免线上事故的发生。我们在开发和运维NOS(网易对象存储,Netease Object Sto转载 2014-01-15 11:48:41 · 1170 阅读 · 0 评论 -
高并发利器WAL顺序写
WAL机制事物日志可以帮助提高事物的效率。使用事物日志,存储引擎在修改标的数据时只需要修改其内存拷贝,再把修改行为记录到持久在硬盘上的事务日志中,而不用每次都将修改的数据本身持久到磁盘中。事物日志采用的是追加的方式,因此写日志的操作是磁盘上一小块区域内的顺序I/O,而不像随机I/O需要在磁盘的多个地方移动磁头,所以采用事物日志的方式相对来说要快得多。事务日志持久以后,内存中被修改的数据在后台可...原创 2019-06-03 12:52:10 · 1978 阅读 · 0 评论