- 博客(9)
- 资源 (3)
- 收藏
- 关注
转载 最佳日志实践
前言日志用来记录用户操作、系统运行状态等,是一个系统的重要组成部分。然而由于日志并非系统核心功能,通常情况下并不受团队的重视。在出现问题需要通过日志来定位时,才发现日志还存在很多问题。日志记录的好坏直接关系到系统出现问题时定位的速度,同时可以通过对日志的观察和分析,提前发现系统可能的风险,避免线上事故的发生。我们在开发和运维NOS(网易对象存储,Netease Object Sto
2014-01-15 11:48:41 1169
转载 浅谈数据仓库的基本架构
目录[-]1、数据仓库的数据来源2、数据仓库的数据存储3、数据的聚合4、多维数据模型5、业务模型6、数据仓库的数据应用7、报表展示8、即席查询9、数据分析10、数据挖掘11、元数据管理12、一种Hadoop多维分析平台的架构13、Refer 数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decisio
2014-01-12 14:07:31 1428
转载 十步完全理解SQL
很多程序员视 SQL 为洪水猛兽。SQL 是一种为数不多的声明性语言,它的运行方式完全不同于我们所熟知的命令行语言、面向对象的程序语言、甚至是函数语言(尽管有些人认为 SQL 语言也是一种函数式语言)。我们每天都在写 SQL 并且应用在开源软件 jOOQ 中。于是我想把 SQL 之美介绍给那些仍然对它头疼不已的朋友,所以本文是为了以下读者而特地编写的:1、 在工作中会用到 SQL
2014-01-12 12:15:07 919
转载 从MR到Hive – 一次迁移的过程
背景介绍早先的工作中,有很多比较复杂的分析工作,当时对hive还不熟悉,但是java比较熟悉,所以在进行处理的时候,优先选择了MR.但是随着工作的数据内容越来越多,越来越复杂,对应的调整也越来越多,越来越复杂.纯使用MR方式整个流程就比较复杂,如果需要修改某个部分,那首先需要修改代码中的逻辑,然后把代码打包上传到某个可访问路径上(一般就是hdfs),然后在调度平台内执行.如果改动较大的情况
2014-01-12 12:08:36 2556
原创 读hive编程指南
读hive编程指南《Programming Hive》中文版随手记录,红色部分代表本人认为翻译错误,或者原书撰写时不支持,现在支持的功能。3章传统DB:通常会提供限制最大长度的“字符数组”,定长的记录更容易进行建立索引、数据扫描hive:不一定拥有数据文件但必须支持能够使用不同的文件格式,hive根据不同字段间的分隔符来对其进行判断,同时hive强调优化磁盘
2014-01-11 17:29:12 2453
转载 hive merge小文件
当Hive输入由很多个小文件组成,由于每个小文件都会启动一个map任务,如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至OOM。为此,当我们启动一个任务,发现输入数据量小但任务数量多时,需要注意在Map前端进行输入合并当然,在我们向一个表写数据时,也需要注意输出文件大小1. Map输入合并小文件对应参数:set mapred.max.
2014-01-11 00:13:40 859
原创 关于hive统计周wau、保留率需求的几种思路
说明:程序有快慢之分,业务却有千变万化之状,不同的需求对症下药,选择合适的解法。wau:指的是用户一周之内登陆的独立用户id数wau保留率:指的是后续每周登陆的独立用户id与第一周登陆独立用户id的join,相当于第一周登陆,后续每周也登陆的用户。需求:统计从2013七月份开始每周2013-07-01~2013-07-07,2013-07-08~2013-07-
2014-01-09 20:12:51 7176 3
原创 hive是如何判断设置map、reduce个数的
hive是按照输入数据量大小确定reduce个数默认hive.exec.reducers.bytes.per.reducer=1000,000,000 1G(一个reduce处理1G~10G之间数据量,比较合适)也就是说你如果有20G的数据,将会启动20个reduce代码截图如下: if (totalInputFileSize != inputSummary.getLength()
2014-01-06 01:57:19 9853
原创 hadoop&hive压缩相关说明
对于MR作业,压缩中间数据,可以减少磁盘操作,减少网络传输数据量,进而提交查询速度。对此整理下日常生活中出现的疑惑点。hadoop对每个压缩格式的支持 压缩格式 工具 算法 文件扩展名 多文件 可分割性 DEFLATE 无 DEFLATE .deflate 不 不
2014-01-06 01:22:48 2739
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人