磁盘读取速度100MB/s ,读取1T磁盘需要两个半小时。
减少读取方法:同时在多个磁盘上读取数据,拥有100个磁盘,每个存储1%数据,并行读取,
两分钟可读取完。
我们可以存储100个数据集,实现并行访问,缩短数据分析时间。
可能遇到问题:
1.硬件故障 - RAID - HDFS
2.分析任务需要以某种方式结合大部分数据共同完成分析任务,
从一个磁盘读取的数据可能需要结合另外99个磁盘读取的数据使用,
保证正确性是非常大的挑战。- MapReduce
不能使用数据库对大量磁盘上的大规模数据进行批量分析
磁盘另一个发展趋势:寻址时间的提高远远慢于传输速率的提高。
寻址:刺头移动到磁盘位置进行读写操作的过程。
传输速率取决于磁盘的带宽。
许多情况下,可以将MapReduce视为关系型数据库系统的补充。
MapReduce适合一次写入,多次读取的数据应用
RDBMS适合持续更新数据集。
HPC高性能计算:讲作业分散到集群各台机器上,这些
机器访问有SAN 存储区域网络组织的共享文件系统。
这比较适用于计算机密集型的作业,如果节点需要访问
更大量的数据,那么计算机节点会由于网络瓶颈问题而
<