一:云计算的概念
云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问, 进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。(云计算的虚拟化是指将多台计算机虚拟化成一台计算机)
二:大数据的发展
第一阶段:萌芽期【数据挖掘理论数据库技术的逐步成熟,开始应用数据仓库、专家系统、知识管理系统等只能工具和知识管理技术】
第二阶段:成熟期【web2.0应用迅猛发展,非结构化数据大量产生。形成了并行计算与分布式系统两大核心技术,大数据技术收到追捧】
第三阶段:大规模应用期【大数据应用参透各行各业,数据驱动决策,信息社会智能化程度大幅提高】
三:大数据的关键技术(核心技术:分布式存储、分布式处理)
1、数据采集:利用ETL工具将数据文件抽取到临时中间层后清洗、转换、集成最后加载到数据仓库或数据集市中进行数据挖掘,或者把实时采集的数据作为流进行实时处理分析。
2、数据存储和管理:利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等对结构化、半结构化和非结构化海量数据的存储和管理。