google在Big Data 應用上的技術與論文介紹

转载 2013年12月04日 18:12:49

转载自:http://techorange.com/2013/05/14/big-data-beyond-mapreduce/

目前 Big Data 的相關應用有不少都是從 MapReduce 衍生而出的,但,若把焦點移到即時資料(Real-Time Data)的需求上時就會發現它的不足之處。

因此,本篇文章將與各位讀者分享,從 Google 發佈 GFS、Big Data 與 MapReduce 這些技術開始,到這些技術發展的現況與其所遭遇到的瓶頸,以及 Google 為了解決這些問題提出了哪些因應的技術。

  • MapReduce,GFS 與 Bigtable,帶動了 Big Data 應用技術的發展

Google 在 2003 年發表了第一篇論文 〈The Google File System〉。文中敘述,GFS(Google File System)是一個分散式檔案系統,由數百個叢集(Cluster)所組成。簡單來說,儲存在 GFS 的檔案會被切割成  64 MB 左右的資料塊(Chunk),其利用重複的方式(Redundant Fashion)儲存在叢集中。

2004 年,Google 發表了 MapReduce 論文 〈MapReduce: Simplified Data Processing on Large Clusters〉,如今,MapReuce 可以說幾乎已經跟 Big Data 劃上等號了。

Google 利用 MapReuce 演算法來計算查詢索引(Search Index),讓使用者能在最短的時間內從 Internet 上找到自己所需要/查詢的資料。

2006 年,Google 發表了 Bigtable 論文 〈Bigtable: A Distributed Storage System for Structured Data〉,而 Bigtable 帶領了許多 NoSQL 資料庫的技術應用發展,像是 Cassandra、HBase 等等。

其中,Cassandra 的架構就整合了 Bigtable(資料模型、SSTables 及 Write-Through-Logs)與 Amazon 的 Dynamo 資料庫(Peer-to-Peer Clustering Model)。

  • Percolator,能夠解決 MapReduce 無法處理個別更新的問題

隨著 Internet 的網頁呈現指數增加,MapReduce 每次都要全面地重新計算查詢索引是非常不切實際的。因此,Google 為了提升系統的效能,開發了一個更有價值的分散式計算系統:Percolator。

Google 在 2010 年發表了相關的論文 〈 Large-scale Incremental Processing Using Distributed Transactions and Notifications〉,文中敘述 Google 如何在網路搜尋索引(Web Search Index)的技術持續地維持精進。例如,MapReduce 做計算時無法處理局部的更新,因此,在效能的改善部份是很有限的,而 Percolator 則彌補了這個弱點。

但是,各位讀者千萬不要誤以為 Percolator 是用來取代  MapReduce 的。

Percolator 是建立於 Bigtable 之上的應用,它加入了對表(Table)與紀錄(Row)的交易(Transaction)與鎖定(Lock)機制,也就是當 GFS 做表的掃描時,一旦發現有更新過的紀錄,就會透過觸發程序(Trigger)告知這個改變,再依據讀取(Read)或寫入(Write)的請求,在不同階段的工作過程中,針對資料表或記錄做鎖定或釋放的管理機制。透過這樣子的方式,來完成局部個體的更新。

  • Pregel:用來處理網絡社交關係的圖型結構計算

Google 為了做網路社交關係的圖型結構分析,開始針對圖型結構探勘做相關的研究與發展,並在 2010 年發表了相關的論文 〈Pregel: A System for Large-Scale Graph Processing〉。

由於針對大型的圖型結構做處理是非常複雜也具有挑戰性的,尤其是網路的分散式處理讓難度又提高了許多,因此,Pregel 的計算要比MapReduce 的計算要複雜許多,其主要是利用BSP(Bluk Synchronous Parallell)、PageRank、Bipartite Matching 等演算法來做計算的實踐。而在論文中你也可以看到上述這些方法的實踐。

  • Dremel:只要花幾秒鐘時間就可以分析 PB 等級的數據

在 2010 年,Google 還同時發表了一篇關於 Dremel 的論文,內容敘述 Dremel 是一個利用 SQL-like Language 的互動式資料庫系統,用來儲存結構化資料。

Dremel 的特色是,以列儲存為主,以減少 CPU 與磁碟的讀取,進而達到快速讀取局部資料的目的;將查詢的任務切割成多個小任務,以達到平行處理的目的;支援 Nested 數據模型,但只提供唯讀功能。

  • Big Data 的相關應用,需要的不只是 MapReduce

Google 並沒有在提出 MapReduce 之後,就停止了查詢技術的發展,他們不斷地發展新的技術以補強 MapReduce 的不足之處,這對 Big Data 的發展是有益的。

畢竟,MapReduce 不是萬能的,以目前的狀況來說,還是有許多的問題尚待解決,不過,Google 所發展出來的技術,帶領了許多其他自由軟體的發展,像 Apache Drill、Apache Giraph 以及 Stanford’s GPS 等等,這或許是身為使用者的我們最樂於見到的發展。

Google:机器学习芯片让AI更快更高效

原文:Google Says Machine Learning Chips Make AI Faster and More Efficient 作者: Edd Gent 翻译:无阻我飞扬 ...
  • dev_csdn
  • dev_csdn
  • 2017年11月01日 17:03
  • 915

Android应用技术解析

1.Activity    一个Activity通常就是一个(子)屏幕,每一个活动被实现为一个独立的类,该类继承了android.app.Activity基类.大多数应用由多个Activity组成. ...
  • wqvinky
  • wqvinky
  • 2011年04月07日 09:22
  • 139

大数据(big data)究竟是什么?

“大数据”这个词最近两三年在IT界越来越热门,搞IT的如果嘴里不说起大数据,就好象是落了伍。大数据的意思不同人有不同的说法,比较实在含义是特指以Hadoop为代表的大型并发机群(Massively P...
  • xhanfriend
  • xhanfriend
  • 2012年11月30日 16:23
  • 1581

大数据(Big Data)扫盲

大数据(Big Data) 大数据,官方定义是指那些数据量特别大、数据类别特别复杂的数据集,这种数据集无法用传统的数据库进行存储,管理和处理。大数据的主要特点为数据量大(Volume),数据类别...
  • CCJHDOPC
  • CCJHDOPC
  • 2016年05月07日 15:10
  • 928

google big table

Google'sBigTable 原理(翻译)     题记:google 的成功除了一个个出色的创意外,还因为有 Jeff Dean 这样的软件架构天才。                      ...
  • bingzige
  • bingzige
  • 2016年04月17日 00:02
  • 279

BlueDBM个人读感

BlueDBM个人读感     BlueDBM是麻省理工学院Sang-Woo Jun等人发表在2015年ISCA会议上的论文。该篇论文的启发点似乎来自于RAMCloud,该团队发现完全基于DRAM的系...
  • xiaorenzhi
  • xiaorenzhi
  • 2015年07月31日 13:56
  • 1679

IOS开发-注册定制的URL模式

给自己的应用程序注册一个URL,然后可以通过“别的应用”或者“Safari”来打开“注册了URL”的应用。首先给自己程序注册一个URL,在项目plist文件添加如下内容,见下表: (URL t...
  • zfpp25_
  • zfpp25_
  • 2013年03月08日 13:43
  • 1268

FB-DIMM技術介紹

 FB-DIMM内存性能初探处理器、IO和内存是影响一个平台性能的三个关键因素。在平衡的平台上,这三个方面的性能应该相互匹配,不应该有过于突出或者过于“瘸腿”的方面,这也就是Amdahl定律的中心思想...
  • wesleyluo
  • wesleyluo
  • 2009年08月04日 09:32
  • 1529

分清big data,ML,AI之间的关系

How are big data and machine learning related?(大数据与机器学习间关系)下面是回答: 1. Big data and machine learning...
  • he_world
  • he_world
  • 2016年06月01日 11:46
  • 1625

【图像识别】【论文】残疾人手语交流辅助系统手语识别与翻译&&基于数据手套的虚拟手的实现

《残疾人手语交流辅助系统手语识别与翻译》 【本来以为这是一篇学位论文,没想到是比赛的“感言”,不过比赛有一个地方很好,什么最好用、最简单用什么,而是一大堆为写论文而进行研究的东西,各种先进算法交杂在...
  • linghugoogle
  • linghugoogle
  • 2016年10月28日 00:16
  • 846
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:google在Big Data 應用上的技術與論文介紹
举报原因:
原因补充:

(最多只允许输入30个字)