Facebook 海量数据处理

转载 2008年09月28日 21:48:00

 网址:

 

好几个地方看到这个 Facebook - Needle in a Haystack: Efficient Storage of Billions of Photos,是 Facebook 的 Jason Sobel 做的一个 PPT,揭示了不少比较有参考价值的信息。【也别错过我过去的这篇Facebook 的PHP性能与扩展性

图片规模

作为世界上最大的 SNS 站点之一,Facebook 图片有多少? 65 亿张原始图片,每张图片存为 4-5 个不同尺寸,这样总计图片文件有 300 亿左右,总容量 540T,天! 峰值的时候每秒钟请求 47.5 万个图片 (当然多数通过 CDN) ,每周上传 1 亿张图片。

图片存储

前一段时间说 Facebook 服务器超过 10000 台,现在打开不止了吧,Facebook 融到的大把银子都用来买硬件了。图片是存储在 Netapp NAS上的,采用 NFS 方式。

图片写入

Facebook_write.png

尽管这么大的量,似乎图片写入并不是问题。如上图,是直接通过 NFS 写的。

图片读取

Facebook.png

CDN 和 Cachr 承担了大部分访问压力。尽管 Netapp 设备不便宜,但基本上不承担多大的访问压力,否则吃不消。CDN 针对 Profile 图象的命中率有 99.8%,普通图片也有 92% 的命中率。命中丢失的部分采由 Netapp 承担。

图中的 Cachr 这个组件,应该是用来消息通知(基于调整过的 evhttp的嘛),Memcached 作为后端存储。Web 图片服务器是 Lighttpd,用于 FHC (文件处理 Cache),后端也是 Memcached。Facebook 的 Memcached 服务器数量差不多世界上最大了,人家连 MYSQL 服务器还有两千台呢。

Haystacks --大海捞针

这么大的数据量如何进行索引? 如何快速定位文件? 这是通过 Haystacks 来做到的。Haystacks 是用户层抽象机制,简单的说就是把图片元数据的进行有效的存储管理。传统的方式可能是通过 DB 来做,Facebook 是通过文件系统来完成的。通过 GET / POST 进行读/写操作,应该说,这倒也是个比较有趣的思路,如果感兴趣的话,看一下 GET / POST 请求的方法或许能给我们点启发。

Facebook2.png

总体来看,Facebook 的图片处理还是采用成本偏高的方法来做的。技术含量貌似并不大。不清楚是否对图片作 Tweak,比如不影响图片质量的情况下减小图片尺寸。

--EOF--

大数据——海量数据处理的基本方法总结

声明: 原文引用参考July大神的csdn博客文章 => 海量处理面试题 海量数据处理概述所谓海量数据处理,就是数据量太大,无法在较短时间内迅速解决,无法一次性装入内存。本文在前人的基础上总结一下解...
  • lili0710432
  • lili0710432
  • 2015年09月03日 22:26
  • 344269

八爪鱼采集器︱爬取外网数据(twitter、facebook)

要想采集海外数据有两种方式:云采集+单机采集。八爪鱼采集器是内嵌的浏览器,是火狐浏览器,不能进行修改。同时也不同通过修改内嵌VPN来获得外网的许可。 若你的某浏览器通过插件可以上外网,能不能用八爪...
  • sinat_26917383
  • sinat_26917383
  • 2016年10月19日 18:51
  • 3246

十道海量数据处理题与十个方法大总结

作者:July、youwang、yanxionglu。 时间:二零一一年三月二十六日 本文之总结:教你如何迅速秒杀掉:99%的海量数据处理面试题。有任何问题,欢迎随时交流、指正。 出处:http...
  • oMengLiShuiXiang1234
  • oMengLiShuiXiang1234
  • 2016年04月24日 16:08
  • 2048

Hadoop海量数据处理

  • 2017年08月19日 16:03
  • 47.91MB
  • 下载

Hadoop海量数据处理:技术详解与项目实战(第2版)

  • 2017年11月15日 15:19
  • 47.91MB
  • 下载

Hadoop海量数据处理 (范东来著)带书签目录 完整版【64M】

  • 2017年10月09日 21:30
  • 47.91MB
  • 下载

osg 海量数据处理

  • 2013年01月25日 10:55
  • 1.54MB
  • 下载

海量数据处理

  • 2014年08月28日 17:15
  • 911KB
  • 下载

淘宝海量数据处理经验-几幅架构图

  • 2011年09月23日 15:07
  • 444KB
  • 下载

Oracle_数据库中的海量数据处理

  • 2011年10月10日 08:52
  • 1.03MB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Facebook 海量数据处理
举报原因:
原因补充:

(最多只允许输入30个字)