本节书摘来自华章出版社《智能数据时代:企业大数据战略与实战》一书中的第3章,第3.7节,作者 TalkingData ,更多章节内容可以访问云栖社区“华章计算机”公众号查看
3.7 速度与精度的抉择
以往的大数据分析通常需要在性能和精度之间进行折中。造成这种情况的原因是当时的技术往往需要几个小时或几天的时间来运行相应的算法,分析大规模的数据集。采用了集群处理的Hadoop解决了部分的存在问题,同时其他可以增强性能的技术也已经开发完成。但是,对于大多数普通组织而言,实时的大数据分析还只是一个梦想,这主要由于此类组织没有足够的预算扩展自己的存储和处理能力,而大数据对这两种能力则有着近乎无限的需求。
上述约束所带来的结果就是,要想快速地获得结果就必须缩小数据分析的范围,这可能会导致结果准确度的降低。而追求精度的话又不得不选择规模更大的数据集并投入更多的处理时间。
随着技术的发展和创新,选择的空间也在不断扩大。目前行业正在使用内存中处理技术来解决速度与精度无法共存的问题。该方法的原理是将待处理的数据存入易失性存储器而不是硬盘。如果使用普通的物理磁盘驱动器,我们需要读写磁盘中的所有输入和输出数据,与之相比在高速缓存中加载数据集并直接对其应用算法可以节省很多时间。