2014年01月_扫大街的程序员

12月 11月 08月 07月 06月 05月 04月 03月 02月 01月

转载最佳日志实践

前言日志用来记录用户操作、系统运行状态等，是一个系统的重要组成部分。然而由于日志并非系统核心功能，通常情况下并不受团队的重视。在出现问题需要通过日志来定位时，才发现日志还存在很多问题。日志记录的好坏直接关系到系统出现问题时定位的速度，同时可以通过对日志的观察和分析，提前发现系统可能的风险，避免线上事故的发生。我们在开发和运维NOS（网易对象存储，Netease Object Sto

2014-01-15 11:48:41 1169

转载浅谈数据仓库的基本架构

目录[-]1、数据仓库的数据来源2、数据仓库的数据存储3、数据的聚合4、多维数据模型5、业务模型6、数据仓库的数据应用7、报表展示8、即席查询9、数据分析10、数据挖掘11、元数据管理12、一种Hadoop多维分析平台的架构13、Refer　　数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持（Decisio

2014-01-12 14:07:31 1428

转载十步完全理解SQL

很多程序员视 SQL 为洪水猛兽。SQL 是一种为数不多的声明性语言，它的运行方式完全不同于我们所熟知的命令行语言、面向对象的程序语言、甚至是函数语言（尽管有些人认为 SQL 语言也是一种函数式语言）。我们每天都在写 SQL 并且应用在开源软件 jOOQ 中。于是我想把 SQL 之美介绍给那些仍然对它头疼不已的朋友，所以本文是为了以下读者而特地编写的：1、在工作中会用到 SQL

2014-01-12 12:15:07 919

转载从MR到Hive – 一次迁移的过程

背景介绍早先的工作中,有很多比较复杂的分析工作,当时对hive还不熟悉,但是java比较熟悉,所以在进行处理的时候,优先选择了MR.但是随着工作的数据内容越来越多,越来越复杂,对应的调整也越来越多,越来越复杂.纯使用MR方式整个流程就比较复杂,如果需要修改某个部分,那首先需要修改代码中的逻辑,然后把代码打包上传到某个可访问路径上(一般就是hdfs),然后在调度平台内执行.如果改动较大的情况

2014-01-12 12:08:36 2556

原创读hive编程指南

读hive编程指南《Programming Hive》中文版随手记录，红色部分代表本人认为翻译错误，或者原书撰写时不支持，现在支持的功能。3章传统DB：通常会提供限制最大长度的“字符数组”，定长的记录更容易进行建立索引、数据扫描hive：不一定拥有数据文件但必须支持能够使用不同的文件格式，hive根据不同字段间的分隔符来对其进行判断，同时hive强调优化磁盘

2014-01-11 17:29:12 2453

转载 hive merge小文件

当Hive输入由很多个小文件组成，由于每个小文件都会启动一个map任务，如果文件过小，以至于map任务启动和初始化的时间大于逻辑处理的时间，会造成资源浪费，甚至OOM。为此，当我们启动一个任务，发现输入数据量小但任务数量多时，需要注意在Map前端进行输入合并当然，在我们向一个表写数据时，也需要注意输出文件大小1. Map输入合并小文件对应参数：set mapred.max.

2014-01-11 00:13:40 859

原创关于hive统计周wau、保留率需求的几种思路

说明：程序有快慢之分，业务却有千变万化之状，不同的需求对症下药，选择合适的解法。wau：指的是用户一周之内登陆的独立用户id数wau保留率：指的是后续每周登陆的独立用户id与第一周登陆独立用户id的join，相当于第一周登陆，后续每周也登陆的用户。需求：统计从2013七月份开始每周2013-07-01~2013-07-07,2013-07-08~2013-07-

2014-01-09 20:12:51 7176 3

原创 hive是如何判断设置map、reduce个数的

hive是按照输入数据量大小确定reduce个数默认hive.exec.reducers.bytes.per.reducer=1000,000,000 1G（一个reduce处理1G~10G之间数据量，比较合适）也就是说你如果有20G的数据，将会启动20个reduce代码截图如下： if (totalInputFileSize != inputSummary.getLength()

2014-01-06 01:57:19 9853

原创 hadoop&hive压缩相关说明

对于MR作业，压缩中间数据，可以减少磁盘操作，减少网络传输数据量，进而提交查询速度。对此整理下日常生活中出现的疑惑点。hadoop对每个压缩格式的支持压缩格式工具算法文件扩展名多文件可分割性 DEFLATE 无 DEFLATE .deflate 不不

2014-01-06 01:22:48 2739

http api调研分享

各大开放平台http api调研分享如何设计更好地http api

2015-09-22

java并发编程实践

围绕java内存模型、java锁、juc并发包、编程实践方向，阐述为什么会有java并发、如何用好并发、并发编程有哪些坑。

2015-09-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人