综合
文章平均质量分 86
gao634209276
这个作者很懒,什么都没留下…
展开
-
序列化和反序列化
序列化和反序列化几乎是工程师们每天都要面对的事情,但是要精确掌握这两个概念并不容易:一方面,它们往往作为框架的一部分出现而湮没在框架之中;另一方面,它们会以其他更容易理解的概念出现,例如加密、持久化。然而,序列化和反序列化的选型却是系统设计或重构一个重要的环节,在分布式、大数据量系统设计里面更为显著。恰当的序列化协议不仅可以提高系统的通用性、强健性、安全性、优化系统性能,而且会让系统更加易于调试、转载 2016-05-25 23:36:02 · 243 阅读 · 0 评论 -
开源日志系统比较:scribe、chukwa、kafka、flume
1. 背景介绍许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:(1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦;(2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统;(3) 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水平扩展。本文转载 2016-06-27 22:05:58 · 274 阅读 · 0 评论 -
Clojure的Maven配置
先说ClojureClojure发音类似”closure”[‘kləʊʒə(r)])],查看了一下官网并没发现这个名字的由来,也许是闭包的意思。它是JVM中的Lisp,也可以算是现在最实用的Lisp,它可以重用所有的JVM上的库,在设计上也是很考究,如面向并发设计了STM。而且也有了著名的开源项目Storm。因此,值得慕名而来学习学习,拓展一下思路。Hello World去Clojur转载 2016-07-24 00:15:28 · 905 阅读 · 0 评论 -
解密 Uber 数据团队的基础数据架构优化之路
Uber 在现实世界和虚拟世界的十字路口有令人羡慕的一席之地。这令每天在各个城市穿行的数十万司机大军趋之若鹜。当然这也会一个相对浅显的数据问题。但是,就像 Uber数据部门的主管 Aaron Schildkrout所说:商业计划的简单明了带给Uber利用数据优化服务的巨大机会。如果你用过Uber,你一定会注意到它的操作是如此的简单。你一键叫车,随后车就来找你了,最后自动完成支付,整个过程行转载 2016-07-19 21:14:32 · 490 阅读 · 0 评论 -
git设置远程仓库关于多用户ssh无密码登陆问题
Git是目前世界上最先进的分布式版本控制系统(没有之一)。分布式版本控制系统与集中式版本控制系统不同分布式版本控制系统根本没有“中央服务器”,每个人的电脑上都是一个完整的版本库,这样,你工作的时候,就不需要联网了,因为版本库就在你自己的电脑上如果git只是在一个仓库里管理文件历史,Git和SVN真没啥区别。Git是分布式版本控制系统,同一个Git仓库,可以分布到不同的机器上。在实际原创 2016-08-28 00:15:35 · 1549 阅读 · 0 评论 -
hive 使用TEZ的安装配置
hive,tez,hadoop2原创 2016-08-27 00:06:57 · 11289 阅读 · 5 评论 -
个人关于hadoop使用LZO压缩主要步骤以及带来的后续问题和解决办法
hadoop-lzo安装教程请链接https://github.com/twitter/hadoop-lzo下载打包hadoop-lzohttps://github.com/twitter/hadoop-lzo/zipball/master1.其中说明:首先要在本地安装lzo库,方法如下:http://www.oberhumer.com/opensource/lzo/#down原创 2016-08-26 23:33:58 · 1995 阅读 · 0 评论