iphone——苹果公司的第一代智能手机,在2007年正式发布。随后苹果的ios系统和谷歌的安卓系统在市场上推出来,之后便出现了移动互联网的使用方式,要求数据量巨大的高并发应用的使用方式,使得数据量扩大为原来的十倍百倍不止,这是大数据出现的简单背景。从2009年开始,随着谷歌三大论文的发布,大数据才开始成为互联网行业的流行词汇,也吸引了越来越多的关注。
显而易见,用传统的关系型数据库解决这样高并发的大数据是非常吃力的,所以需要新的数据处理方式来解决高并发数据,有这样的业务要求后,谷歌逐渐介入。其实在高并发应用出现之时,谷歌公司的后台数据就是非常大的,谷歌公司内部面对这样大的数据量有一个相对应的解决方案,即就是不久之后谷歌提供了三篇论文。
谷歌当时面临大量的网页怎么存储和搜索算法两大问题,之后的gfs,map-reduce,bigtable论文的推出,相继解决了问题。
gfs(goole file system)的概念是文件的分布式存储。由于谷歌当时没有足够的资金成本,所以谷歌把很多二手的便宜的能淘来的服务器组织在一起,来处理海量的数据。这是谷歌当时推出来的gfs,这个海量数据解决的方案叫做文件的分布式存储——把我们在整个系统中想要的所有文件分布存储在每一台服务器上,不像之前的mysql,oracle,倾向于存储在少数高效的服务器上,这是传统的关系型数据库解决方案。
相对而言,gfs的文件分布式存储成本比较低,传统的关系型数据库硬件成本比较高。而且关系型数据库集群达到一定程度向上扩展会有问题,因为oracle,mysql一般是sever,client的组成方式,而gfs则将sever和client分开,以防sever一旦撑爆,下面的client就没用了。况且现在高并发的应用数据量巨大的情况,传统的关系型数据库已经承载不了这样的数据量的处理问题,自然而然,文件的分布式存储方式应运而生,很好地解决了数据的存储问题。
当然gfs是基于很多实验得出的,有很多假设为前提,我们在设计分布式系统时,要注意自己的应用是否适合gfs,不能盲从gfs.
谷歌三大论文——gfs有感(公选课作业)
最新推荐文章于 2024-01-07 12:57:55 发布