hadoop
iuhiyuh
这个作者很懒,什么都没留下…
展开
-
倒排索引 mr实现
Map阶段 .... context.write("google ->a.txt",1); context.write("google ->a.txt",1); context.write("google ->a.txt",1); context.write("google ->a.txt",1); context.write("google ->a.txt",1)原创 2017-02-28 10:44:21 · 444 阅读 · 0 评论 -
Logstash 快速入门
简介 Logstash是一个接收,处理,转发日志的工具。支持系统日志,webserver日志,错误日志,应用日志,总之包括所有可以抛出来的日志类型。怎么样听起来挺厉害的吧? 在一个典型的使用场景下(ELK):用Elasticsearch作为后台数据的存储,kibana用来前端的报表展示。Logstash在其过程中担任搬运工的角色,它为数据存储,报表查询和日志解析创建了一个功能强大的管道链。Lo转载 2017-03-03 15:34:52 · 492 阅读 · 0 评论 -
ELK在大数据的应用
圈子里关于大数据、云计算相关文章和讨论是越来越多,愈演愈烈。行业内企业也争前恐后,群雄逐鹿。而在大数据时代的运维挑站问题也就日渐突出,任重而道远了。本文旨在针对复杂的大数据运维系统推荐一把利器,达到抛砖引玉的效果,如果文中出现任何纰漏和错误的地方,恳请指正,欢迎讨论,希望大家不吝赐教。 众所周知,大数据平台组件是很复杂的。笔者之前接触的一个大数据平台解决方案,仅平台组件就达20多个,这还没有转载 2017-03-03 16:30:04 · 653 阅读 · 0 评论 -
mapreduce和shuffle详解
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在转载 2017-06-28 10:12:09 · 253 阅读 · 0 评论 -
Hadoop 读取文件源码分析
原创 2018-01-10 23:01:03 · 227 阅读 · 0 评论