最近突然做大数据 有点自己的思考:
大数据的核心是处理大量的数据,然后分析,挖掘
大数据火的本质原因是互联网的兴起带动大量用户使用,由此产生大量数据,这么多数据是
以前的单台机器无法在规定时间内处理完的,由此产生了需要用多台电脑一起计算的思想。由此在计算机软件领域就产生了一系列的大数据技术,比如hadoop,hdfs,storm,spark等等。至于为什么会产生这么多技术,关键的问题是一是用户的大量使用,二是硬件的发展赶不上软件的发展,就是可以理解为 如果某一天 硬件发展起来,一块磁盘 可以存储 数百万TB、PB、EB 的容量,并且价格相对可以接受,大数据存储系统技术就 不会这么火了。 当然大数据这块分俩个去分析,一个是存储,一个是分析。存储的我已经说过了上面,下面说说分析。分析就是数据的整合和计算。传统的技术是普通数据库去完成,现在是普通数据库处理不了这么大的数据,就需要重新设计一种分析存储挖掘技术。当然这并不代表传统的数据库会被替代,因为传统的设计理念是数据要原子性和完整性,不允许存在任何数据的丢失,这在银行金融领域是别无替代的可能性。当然新催生出的数据库诸如nosql,redis,hbase,mongodb等等,都是对数据的完整性没那么要求高的。
包括周围总听到的,分布式、主备热备、云服务、集群处理等等都是在担心着硬件万一出情况的后续处理和硬件不满足要求的解决方案。
总的来说,现在是互联网的时代,最赚钱的也是互联网公司,硬件等公司发展的较为缓慢,因此这也是无可逾越的问题。但是我相信如果硬件发展起来或者是数据的压缩技术更成熟(当然也没那么容易),将又会是一个新的时代。
本来这篇文章应该发表在我的技术博客里面,但是感觉又不是技术,所有随便发吧。
待续。。