1.什么是大数据技术,特点?
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
操作-OLTP-事务-transaction
分析-OLAP-历史
数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。
OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。
OLTP系统强调数据库内存效率,强调内存各种指标的命令率,强调绑定变量,强调并发操作;
OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
OLAP 系统则强调数据分析,强调SQL执行市场,强调磁盘I/O,强调分区等。
3.分析ETL(extracttranformloader),挖掘DataMine区别?
ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
两者的具体区别在于:
(其实数据分析的范围广,包含了数据挖掘,在这里区别主要是指统计分析)
(1)数据量上:数据分析的数据量可能并不大,而数据挖掘的数据量极大。
(2)约束上:数据分析是从一个假设出发,需要自行建立方程或模型来与假设吻合,而数据挖掘不需要假设,可以自动建立方程。
(3)对象上:数据分析往往是针对数字化的数据,而数据挖掘能够采用不同类型的数据,比如声音,文本等。
(4)结果上:数据分析对结果进行解释,呈现出有效信息,数据挖掘的结果不容易解释,对信息进行价值评估,着眼于预测未来,并提出决策性建议。数据分析是把数据变成信息的工具,数据挖掘是把信息变成认知的工具,如果我们想要从数据中提取一定的规律(即认知)往往需要数据分析和数据挖掘结合使用。
Hadoop是一个由Apache所开发的分布式系统基础架构。
Hadoop在各方面都打破了传统关系型数据库的思路和模式
MapReduce-Hadoop的核心, 是一个可以对大量数据进行分布式处理的软件框架,基于Map/Reduce技术。
MapReduce的重要创新是当处理一个大数据集查询时会将其任务分解并在运行的多个节点中处理。