从Hadoop 说起 六个真实的大数据应用案例

翻译 2014年11月20日 10:59:52

        1. Last.fm

        1.1背景

  创建于2002年,提供网络电台和网络音乐服务的社交网络。每个月有2500万人使用Last.fm,产生大量数据。现在有了中文版http://cn.last.fm/,界面很不错!

  2006年初,Last.fm开始使用Hadoop,几个月后投入实际应用。Hadoop是Last.fm基础平台的关键组件,有2个 Hadoop集群,50台计算机,300个内核,100TB的硬盘空间。在集群上,运行数百种各种日常作业,包括日志文件分析,A/B测试评测,即时处理 和图表生成。

  1.2图表生成

  图表生成是Hadoop在Last.fm的第一个应用。

  1.3数据从哪里来

  Last.fm有两种收听信息:用户播放自己的音乐,如pc或者其他设备mp3,这种信息通过Last.fm的客户端或者第三方应用发送到 Last.fm,这一类叫scrobble收藏数据;用户收听Last.fm网络电台的节目,以及听节目时候的喜爱,跳过,禁止等操作信息,这一类叫 radiolisten电台收听数据。

  1.4数据存储

  收听数据被发送到Last.fm,经历验证和转换,形成一系列有空格分隔的文本文件,包含用户id-userid,音乐id-trackid, 这首音乐被收藏的次数scrobble,这首音乐在电台中收听的次数radio,被跳过的次数skip。真实数据达到GB级别,有更多属性字段。

  1.5数据处理

  1.5.1UniqueListeners作业:统计收听某一首歌的不同用户数,也就说说,有多少个用户听过某个歌,如果用户重复收听,只算一次。

  1.5.2Sum作业:每首歌的收听总数,收藏总数,电台收听总数,被跳过的总数。

  1.5.3合作作业:每首歌的被多少不同用户收听总数,收听总数,收藏总数,电台收听总数,被跳过的总数。

  1.5.4这些数据会被作为周排行榜等在Last.fm主站上显示出来。

  2.Facebook


  2.1背景

  Facebook社交网络。

  开始时,试用一个小Hadoop集群,很成功。同时开始开发Hive,Hive让工程师能 用SQL语言处理Hadoop集群的数据,毕竟很多人更熟悉SQL。后来,Facbook运行了世界第二大Hadoop集群,数据超多2PB,每天加入 10TB数据,2400个内核,9TB内存,大部分时间硬件满负荷运行。

  2.2使用情况

  2.2.1在大规模数据是以天和小时为单位产生概要信息。如用户数,网页浏览次数,网站访问时间增常情况,广告活动效果数据,计算用户喜欢人和应用程序。

  2.2.2分析历史数据,以设计和改进产品,以及管理。

  2.2.3文件存档和日志查询。

  2.3广告分析

  2.3.1cpc-costperclick点击数计费,cpm-costpermille每千人成本。

  2.3.2个性化广告定制:根据个体用户进行不同的内容剪辑。Yahoo!的SmartAds,Facebook的SocialAds,EngagementAd广告意见/嵌入视频交互。Facebook每天处理1TB数量级广告数据。

  2.3.3用Hive分析A/B测试的结果。

  2.3.4Hadoop和Hive分析人气网站,生物信息公司,原油勘探公司,在线广告。

  3.Nutch搜索引擎

  3.1Nutch框架用户建立可扩展的crawler网络爬虫和搜索引擎。

  3.2架构

  3.2.1crawlDb网页数据库:跟踪网络crawler抓取的网页和它们的状态。

  3.2.2fetchlist爬取网页清单:crawler定期刷新web视图信息,下载新的网页。

  3.2.3pagecontent原始网页数据:从远程网站下载,以原始的未世界的格式在本地存储成字节数组。

  3.2.4解析的网页数据:Nutch为html,pdf,openoffice,msoffice,rss提供了解析器。

  3.2.5linkdb链接图数据库:pagerank来的。

  3.2.6lucene全文检索索引:倒排索引,基于搜集到的所有网页元数据和抽取到的纯文本内容建立。

  3.3使用情况

  Nutch使用Hadoop作业处理数据。

  4Rackspace

                                    

  4.1背景

  Rackspacehosting为企业提供管理系统。在数百台服务器上为100万用户和几千家公司提供邮件服务。

  4.2使用情况

  日志分析。发送邮件需要使用多个postfix邮件代理服务器,大部分消息穿越多个Postfix服务器,但每个服务器只知道邮件的目的地,为了给消息建立完整的历史信息,需要用Hadoop处理日志记录。

  4.3使用方式

  在数据中心,syslog-ng从source机器传统日志数据到一组负载均衡的collector收集器机器。在收集器上,日志数据被汇集成一个单独的数据流,用gzip格式进行轻量级压缩。

  当压缩的日志流到达本地收集器,数据会被写入Hadoop,这一步用简单的python脚本写入即可。

  Hadoop集群有15个数据节点,每个节点使用普通cpu和3个500G硬盘。

  4.4计算

  每个电子邮件有一个唯一标示符号queue-id。每个电子邮件有一个唯一的message-id,但恶意客户端会重复发送消息,所以message-id会被伪造。

  在Postfix日志,需要用queue-id查找message-id。

  第一步,以queue-id为健,进行map,把日志log的每个分配给对应的queue-id,然后,执行reduce过程,根据日志消息数值判断queue-id的发送过程是否完整。

  第二步,根据message-id对第一步的结果进行分组,以queue-di和message-id同时为键,以它们对应的日志行作为值,在reuce阶段,判断针对某个message-id的所有queue-id是否合理,验证消息是否离开系统。


         5. Cascading

                                                

  5.1背景
  Cascading是一个开源的Java库,为MapReduce提供抽象层。用 Java写Hadoop的MapReduce是有难度的:cascading用简单字段名和数据元组模型代替MapReduce的key- value;cascading引入了比Map和Reduce更抽象的层次,如Function,Fileter,Aggregator和Buffer。
  5.2使用情况
  Cascading以字段名和元组的方式,把多个MapReduce的处理简化成一个管道链接起来的形式处理数据。从例子来看非常简洁,需要的代码很少。

  

  6.用Pig和Wukong探索十亿数据级别的网络图

  6.1图=节点+连接节点的边。
  6.2Infochimps项目,一个发现,共享,出售数据集的全球性网站。用简单的脚本语言-不超过一页,就可以处理TB级别的图数据。
  6.3在Infochimps,有twitter,faceboobk的数据集;有wiki百科数据集;线虫项目神经愿和突触的联系;高速公路地图等等。
  6.4在网络图分析上可以做出很多很好玩的有趣东东。
 
  以上内容来自《Hadoop权威指南》的案例。

相关文章推荐

Hadoop10大应用案例 & 多个行业(转载)

生命力旺盛!Hadoop10大应用(含8家潜力企业) 发表于23小时前| 1070次阅读| 来源gigaom| 2 条评论| 作者Derrick Harris Hadoop大数...
  • linhx
  • linhx
  • 2012年09月04日 10:57
  • 3638

hadoop入门--简单的MapReduce案例

转载:http://my.oschina.net/itblog/blog/275294 分析MapReduce执行过程     MapReduce运行的时候,会通过Mapp...
  • zhangt85
  • zhangt85
  • 2014年12月22日 10:50
  • 58087

Delphi7高级应用开发随书源码

  • 2003年04月30日 00:00
  • 676KB
  • 下载

Hadoop实战实例

Hadoop实战实例        Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集...
  • hguisu
  • hguisu
  • 2012年02月07日 14:47
  • 31268

[COPY]当前国内外Hadoop的实际使用案例

说到Hadoop,很多朋友都想知道到底它是如何被应用的呢?通过下文,笔者就向大家介绍一下具体的情况。 1.Yahoo Yahoo是Hadoop的最大支持者,截至2012年,Yahoo的Hadoop...
  • lienen
  • lienen
  • 2016年01月05日 09:35
  • 1023

六个超大规模Hadoop部署案例-Hadoop

据估量,到2015年,全世界一半以上的数据将涉及Hadoop--围绕这个开源平台的生态系统日益庞大,这有力地印证了这个惊人的数字。   然而,有些人表示,虽然Hadoop是眼下热闹非凡的大数据领...
  • hmy1106
  • hmy1106
  • 2015年02月11日 22:50
  • 1457

hadoop应用场景总结

我个人接触hadoop仅仅不到一年,因为是业余时间学习,故进度较慢,看过好多视频,买过好多书,学过基本知识,搭建过伪分布式集群,有过简单的教程式开发,恰逢毕业季,面试过相关岗位,自认为路还很远,还需一...

Hadoop 实例1---通过采集的气象数据分析每年的最高温度

1.原始数据分析0067011990999991950051507004888888889999999N9+00001+9999999999999999999999 00670119909999919...

使用Hadoop分析数据——简单案例java语言编程之MaxTemperature

为了充分发挥Hadoop提供的并行处理优势,我们需要将查询表示成MapReduce作业。经过一些本地的小规模测试,我们将能够在集群设备上运行Hadoop。   Map阶段和reduce阶段    ...

Delphi7高级应用开发随书源码

  • 2003年04月30日 00:00
  • 676KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:从Hadoop 说起 六个真实的大数据应用案例
举报原因:
原因补充:

(最多只允许输入30个字)