我眼中的大数据（一）

最新推荐文章于 2023-09-17 00:39:07 发布

平凡程序猿

最新推荐文章于 2023-09-17 00:39:07 发布

阅读量2.7k

点赞数 9

分类专栏：大数据文章标签：数据库大数据 storm hadoop flink

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nicvscs/article/details/126974702

版权

前言

在正式落地谈技术之前，先花一些篇幅说说大数据技术的发展史。我们常说的大数据技术，其实起源于Google在2004年前后发表的三篇论文，分别是分布式文件系统GFS、大数据分布式计算框架MapReduce和NoSQL数据库系统BigTable（如果大家需要可以留言给我，我可以专门解读一下）。

一、从搜索引擎开始

搜索引擎主要就做两件事情，一个是网页抓取，一个是索引构建，在这个过程中，有大量的数据需要存储和计算。当时的大数据其实就是用来解决这个问题的，一个文件系统、一个计算框架、一个数据库系统。

在2004年那会儿，Google发布的论文实在是让业界为之一振，大家恍然大悟，原来还可以这么玩。因为那个时间段，大多数公司在思考如何提升单机的性能，寻找更贵更好的服务器。而Google的思路是部署一个大规模的服务器集群，通过分布式的方式将海量数据存储在这个集群上，然后利用集群上的所有机器进行数据计算。

当时Lucene开源项目的创始人Doug Cutting正在开发开源搜索引擎Nutch，阅读了Google的论文后，他非常兴奋，紧接着就根据论文原理初步实现了类似GFS和MapReduce的功能。

两年后的2006年，Doug Cutting将这些大数据相关的功能从Nutch中分离了出来，然后启动了一个独立的项目专门开发维护大数据技术，这就是后来赫赫有名的Hadoop，主要包括Hadoop分布式文件系统HDFS和大数据计算引擎MapReduce。

Hadoop发布之后，Yahoo很快就用了起来。大概又过

最低0.47元/天解锁文章

平凡程序猿

关注

9
点赞
踩
17

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。