巨量资料(big data),或称大数据、海量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管
理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 大数据的4V特点:Volume、Velocity、Variety、Veracity。“大数据”是由
数量巨大、结构复杂、类型众多数据构成的数据集合。
的使用分布式技术。
Hadoop的框架最核心的设计就是HDFS和MapReduce。HDFS为海量的数据提供了分布式高可靠性的存储,而MapReduce为海量的数据提供了高速
并行计算。HDFS一句话总结就是:把一个大文件切分成若干小块放在集群的多个主机上,并用智能备份机制保障高可靠性。MapReduce一句话
总结就是:把要处理的巨量任务(job)分割成若干个任务片(task),让集群中不同的主机执行不同的任务片,各个任务片互补影响并行执
行。
Hadoop是为大数据而生的并不是万用灵丹,他的性能取决于文件的大小和数量,处理的复杂度以及群集机器的数量,相连的带宽,当以上四
者并不大时,hadoop优势并不明显。
比如,不用hadoop用java写的简单grep函数处理100M的log文件只要4秒,用了hadoop local的方式运行是13秒,用了hadoop单机集群的
方式是31秒,用双机集群10M网口的话更慢,慢到不好意思说出来的地步。
理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 大数据的4V特点:Volume、Velocity、Variety、Veracity。“大数据”是由
数量巨大、结构复杂、类型众多数据构成的数据集合。
大数据的处理过程被称为“垃圾里找黄金”
的使用分布式技术。
Hadoop的框架最核心的设计就是HDFS和MapReduce。HDFS为海量的数据提供了分布式高可靠性的存储,而MapReduce为海量的数据提供了高速
并行计算。HDFS一句话总结就是:把一个大文件切分成若干小块放在集群的多个主机上,并用智能备份机制保障高可靠性。MapReduce一句话
总结就是:把要处理的巨量任务(job)分割成若干个任务片(task),让集群中不同的主机执行不同的任务片,各个任务片互补影响并行执
行。
Hadoop是为大数据而生的并不是万用灵丹,他的性能取决于文件的大小和数量,处理的复杂度以及群集机器的数量,相连的带宽,当以上四
者并不大时,hadoop优势并不明显。
比如,不用hadoop用java写的简单grep函数处理100M的log文件只要4秒,用了hadoop local的方式运行是13秒,用了hadoop单机集群的
方式是31秒,用双机集群10M网口的话更慢,慢到不好意思说出来的地步。