自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (3)
  • 收藏
  • 关注

转载 最佳日志实践

前言日志用来记录用户操作、系统运行状态等,是一个系统的重要组成部分。然而由于日志并非系统核心功能,通常情况下并不受团队的重视。在出现问题需要通过日志来定位时,才发现日志还存在很多问题。日志记录的好坏直接关系到系统出现问题时定位的速度,同时可以通过对日志的观察和分析,提前发现系统可能的风险,避免线上事故的发生。我们在开发和运维NOS(网易对象存储,Netease Object Sto

2014-01-15 11:48:41 1169

转载 浅谈数据仓库的基本架构

目录[-]1、数据仓库的数据来源2、数据仓库的数据存储3、数据的聚合4、多维数据模型5、业务模型6、数据仓库的数据应用7、报表展示8、即席查询9、数据分析10、数据挖掘11、元数据管理12、一种Hadoop多维分析平台的架构13、Refer  数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decisio

2014-01-12 14:07:31 1428

转载 十步完全理解SQL

很多程序员视 SQL 为洪水猛兽。SQL 是一种为数不多的声明性语言,它的运行方式完全不同于我们所熟知的命令行语言、面向对象的程序语言、甚至是函数语言(尽管有些人认为 SQL 语言也是一种函数式语言)。我们每天都在写 SQL 并且应用在开源软件 jOOQ 中。于是我想把 SQL 之美介绍给那些仍然对它头疼不已的朋友,所以本文是为了以下读者而特地编写的:1、 在工作中会用到 SQL

2014-01-12 12:15:07 919

转载 从MR到Hive – 一次迁移的过程

背景介绍早先的工作中,有很多比较复杂的分析工作,当时对hive还不熟悉,但是java比较熟悉,所以在进行处理的时候,优先选择了MR.但是随着工作的数据内容越来越多,越来越复杂,对应的调整也越来越多,越来越复杂.纯使用MR方式整个流程就比较复杂,如果需要修改某个部分,那首先需要修改代码中的逻辑,然后把代码打包上传到某个可访问路径上(一般就是hdfs),然后在调度平台内执行.如果改动较大的情况

2014-01-12 12:08:36 2556

原创 读hive编程指南

读hive编程指南《Programming Hive》中文版随手记录,红色部分代表本人认为翻译错误,或者原书撰写时不支持,现在支持的功能。3章传统DB:通常会提供限制最大长度的“字符数组”,定长的记录更容易进行建立索引、数据扫描hive:不一定拥有数据文件但必须支持能够使用不同的文件格式,hive根据不同字段间的分隔符来对其进行判断,同时hive强调优化磁盘

2014-01-11 17:29:12 2453

转载 hive merge小文件

当Hive输入由很多个小文件组成,由于每个小文件都会启动一个map任务,如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至OOM。为此,当我们启动一个任务,发现输入数据量小但任务数量多时,需要注意在Map前端进行输入合并当然,在我们向一个表写数据时,也需要注意输出文件大小1. Map输入合并小文件对应参数:set mapred.max.

2014-01-11 00:13:40 859

原创 关于hive统计周wau、保留率需求的几种思路

说明:程序有快慢之分,业务却有千变万化之状,不同的需求对症下药,选择合适的解法。wau:指的是用户一周之内登陆的独立用户id数wau保留率:指的是后续每周登陆的独立用户id与第一周登陆独立用户id的join,相当于第一周登陆,后续每周也登陆的用户。需求:统计从2013七月份开始每周2013-07-01~2013-07-07,2013-07-08~2013-07-

2014-01-09 20:12:51 7176 3

原创 hive是如何判断设置map、reduce个数的

hive是按照输入数据量大小确定reduce个数默认hive.exec.reducers.bytes.per.reducer=1000,000,000 1G(一个reduce处理1G~10G之间数据量,比较合适)也就是说你如果有20G的数据,将会启动20个reduce代码截图如下: if (totalInputFileSize != inputSummary.getLength()

2014-01-06 01:57:19 9853

原创 hadoop&hive压缩相关说明

对于MR作业,压缩中间数据,可以减少磁盘操作,减少网络传输数据量,进而提交查询速度。对此整理下日常生活中出现的疑惑点。hadoop对每个压缩格式的支持 压缩格式 工具 算法 文件扩展名 多文件 可分割性 DEFLATE 无 DEFLATE .deflate 不 不

2014-01-06 01:22:48 2739

http api调研分享

各大开放平台http api调研分享 如何设计更好地http api

2015-09-22

java并发编程实践

围绕java内存模型、java锁、juc并发包、编程实践方向,阐述为什么会有java并发、如何用好并发、并发编程有哪些坑。

2015-09-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除