今天来说一说对于大数据这个词的理解 以及初步的认识;
(以下只是本人简短学习之后的总结,如有错误欢迎指出)
我对于大数据的认知是:短时间内快速产生的大量且多种多样的有价值的信息;
在以往,数据产生速度慢,节奏慢,而现在呢社会科技发展之快是肉眼可见的,当然也有很多是我们还没真正地感受到,就已经有开始了更先进的技术发布;对于这一数据量过大的问题,有两个解决方法:
1:垂直扩展:就好比你的电脑要扩大容量是在电脑本身上添加硬盘;
2:横向扩展:是多台服务器连在一起的扩展;(这其中只需要简单廉价的服务器或者PC端就可以了)
在此处将提到谷歌的三大论文:堪称大数据的鼻祖
GFS=================》由此研发出了HDFS分布式文件系统
MapReduce ==》分布式的处理
BigData》HBase
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
Hadoop-------h