Hadoop实际应用场景,阿里和百度

转载 2013年12月06日 10:04:52

[Hadoop] 实际应用场景之 - 阿里

Hadoop在淘宝和支付宝的应用从09年开始,用于对海量数据的离线处理,例如对日志的分析,也涉及内容部分,结构化数据等。使用Hadoop主要基于可扩展性的考虑,规模从当初的3-4百节点增长到今天单一集群3000节点以上,2-3个集群,支付宝的集群规模也达700台,使用Hbase,个人消费记录,key-value型。

阿里对Hadoop的源码做了如下修改:

  • 改进Namenode单点问题
  • 增加安全性
  • 改善Hbase的稳定性
  • 改进反哺Hadoop社区
阿里数据处理的整体架构图如下:

架构分为五层,分别是数据源、计算层、存储层、查询层和产品层。
  • 数据源:这里有淘宝主站的用户、店铺、商品和交易等数据库,还有用户的浏览、搜索等行为日志等。这一系列的数据是数据产品最原始的生命力所在。
  • 计算层:在数据源层实时产生的数据,通过淘宝主研发的数据传输组件DataX、DbSync和Timetunnel准实时地传输到Hadoop集群“云梯”,是计算层的主要组成部分。在“云梯”上,每天有大约40000个作业对1.5PB的原始数据按照产品需求进行不同的MapReduce计算。一些对实效性要求很高的数据采用“云梯”来计算效率比较低,为此做了流式数据的实时计算平台,称之为“银河”。“银河”也是一个分布式系统,它接收来自TimeTunnel的实时消息,在内存中做实时计算,并把计算结果在尽可能短的时间内刷新到NoSQL存储设备中,供前端产品调用。
  • 存储层:针对前端产品设计了专门的存储层。在这一层,有基于MySQL的分布式关系型数据库集群MyFOX和基于HBase的NoSQL存储集群Prom。
MyFOX的结构图如下:

Prom(即普罗米修斯)结构图如下:

  • 查询层(glider)

  • 产品层:数据魔方、量子恒道等


[Hadoop] 实际应用场景之 - 百度

百度在2008年就开始使用Hadoop作为其离线数据分析平台,从Hadoop v0.18/0.19开始,300台机器,2个集群,现在的规模为2W台节点以上,最大集群接近4,000节点,每日处理数据20PB+,每日作业数120,000+

Hadoop在百度主要用于如下场景:

  • 日志的存储和统计;
  • 网页数据的分析和挖掘;
  • 商业分析,如用户的行为和广告关注度等;
  • 在线数据的反馈,及时得到在线广告的点击情况;
  • 用户网页的聚类,分析用户的推荐度及用户之间的关联度。


百度和其它公司对Hadoop的应用最大的不同是对源代码做了大量的修改,当Hadoop 2.0官方版本还没有出来时,百度就已经在开发自己的Hadoop 2.0,如下图所示:


HDFS 1.0面临的问题有:
  • 集群规模大,Namenode响应变慢
  • Namenode单点,切换时间太长
  • 没有数据压缩
  • Namespace过于耗用资源
百度自己开发的HDFS 2.0改进了如下功能:
  • Namenade热备切换
  • 分钟级别切换
  • 最坏情况,可能丢失1分钟数据
  • 透明数据压缩(利用CPU低谷时压缩、长时间未使用的块才压缩等)
MapReduce 1.0面临的问题有:
  • JobTracker单点问题
  • 资源粒度过粗(slot)
  • 资源利用率不高
百度自己开发的MapReduce 2.0改进了如下功能:
  • 可扩展性强(支持万台节点以上)
  • 架构松耦合,支持多种计算框架
  • 可支持热升级
  • 更精细的资源控制
  • MR优化:Shuffle独立/Task同质调度

从Hadoop 说起 六个真实的大数据应用案例

1. Last.fm         1.1背景   创建于2002年,提供网络电台和网络音乐服务的社交网络。每个月有2500万人使用Last.fm,产生大量数据。现在有了中文版h...
  • ldds_520
  • ldds_520
  • 2014年11月20日 10:59
  • 3212

阿里的Hadoop之路:Hadoop的过去、现在和未来

阿里的Hadoop之路:Hadoop的过去、现在和未来
  • dajiangtai007
  • dajiangtai007
  • 2017年04月01日 16:32
  • 2632

基于Hadoop应用开发的例子(新手入门宝典)

  • 2012年10月23日 15:01
  • 91KB
  • 下载

[COPY]当前国内外Hadoop的实际使用案例

说到Hadoop,很多朋友都想知道到底它是如何被应用的呢?通过下文,笔者就向大家介绍一下具体的情况。 1.Yahoo Yahoo是Hadoop的最大支持者,截至2012年,Yahoo的Hadoop...
  • lienen
  • lienen
  • 2016年01月05日 09:35
  • 1207

在阿里云上搭建hadoop

租了四台阿里云服务器,操作系统是ubuntu 14.04 64位,把它改造成hadoop系统。 1. 修改bash提示符,显示当前设备身份 阿里云的主机名难记,修改.bashrc,修改命令提示符,增加...
  • feverwindlong
  • feverwindlong
  • 2015年04月02日 18:44
  • 6123

在阿里云上搭建hadoop

转自:http://blog.csdn.net/feverwindlong/article/details/44835839 租了四台阿里云服务器,操作系统是ubuntu 14.04...
  • hemeinvyiqiluoben
  • hemeinvyiqiluoben
  • 2017年07月26日 23:29
  • 508

hadoop在项目中的应用笔记

hadoop在java项目中的应用,一般是调用本地hadoop  调试,运行成功后才上次到hadoop集群中进行运行, public class RunJob { public stati...
  • qq_26562641
  • qq_26562641
  • 2016年04月26日 09:18
  • 564

走向云计算之Hadoop实际应用网站日志分析

一、概述网站日志分析是Hadoop应用的一个方向。那么什么是网站日志呢? 网站日志是记录web服务器接收处理请求以及运行时错误等各种原始信息的以.log结尾文件。通过网站日志可以清楚的得知用户在什...
  • xiaokang123456kao
  • xiaokang123456kao
  • 2017年06月20日 18:54
  • 1381

阿里云公司Hadoop研发的要求,看看人家需要什么样的人才?

年末除了关心奖金之外,大多数人都有一颗蠢蠢欲动的心——跳槽,希望来年能找到福利待遇更好、更有规模的企业,但你对自己能力是否有信心呢?现在我们大圣众包(www.dashengzb.cn)小编就分享一篇来...
  • dashenghuahua
  • dashenghuahua
  • 2016年12月28日 11:15
  • 909

阿里云大数据三次技术突围:Greenplum、Hadoop和飞天

对于企业来说,到底什么是云计算?相信很多企业都有这样的困惑,让我们一起回到这个原始的起点探讨究竟什么是云计算?云计算对于企业而言到底意味什么? 云计算的三条发展路径及三种落地形态 当回到最初的起点...
  • q383965374
  • q383965374
  • 2017年11月03日 14:26
  • 451
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Hadoop实际应用场景,阿里和百度
举报原因:
原因补充:

(最多只允许输入30个字)