1.大数据是什么?特点
大数据:是一种规模非常大的,在分析、管理、存储和获取等方面都超出了传统的数据库软件所具有的功能处理范围的巨大数据的调集。
特征4V:
①海量的数据规模(Volume)
②数据类型多种多样(Variety)
③快速的数据流转和动态的数据体系(Velocity)
④巨大的数据价值(Value)
2.数据仓库是什么?Datawarehouse
数据仓库,英文名称Data Warehouse,是面向主题的、集成的、稳定的。面向时间的数据集合。是单个数据存储。
数据仓库中有OLTP和OLAP。
OLTP(on-line transaction processing)联机事务处理主要是执行基本日常的事务处理。例如银行交易。特点:
①实时性要求高。②数据量不是很大,及时做数据处理与转移。③对确定性的的数据进行存取。④高并发。
OLAP(on-line analytical processing)是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。例如复杂的动态的报表系统。特点:
①实时性要求不高。②数据量大,动态查询。③将用户所有关心的维度数据,存入对应数据平台。
3. ELT(Extract Transform Load):抽取、转换、加载。
ETL工作的实质就是从各个数据源提取数据,对数据进项转换,并最终加载填充数据到数据仓库维度建模后的表中。
①抽取:根据数据仓库主题、主题域确定需要从应用数据库中提取的数。
②转换:指对提取好了的数据的结构进行转换,以满足目标数据仓库模型的过程,此外,转换过程也负责数据质量工作,也称为数据清洗。
③加载:将已经提取好了,转换后保证数据质量的数据加载到目标数据仓库。加载分为首次加载和刷新加载。
数据分析与数据挖掘的区别:
数据分析:简单来说,数据分析就是对数据进行分析。是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。实现了现状分析、原因分析、预测分析的作用。
数据挖掘:数据挖掘是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。实现了分类、聚类、关联和预测的作用。
4.Hadoop是什么?
Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专门为离线和大数据分析而设计的,不适合对几个记录随机读写的在线事务处理模式。
Hadoop=HDFS(文件系统,数据存储技术相关)+Mapreduce(数据处理)。Hadoop就是一个分布式计算的解决方案。Hadoop典型的应用有:搜索、日志处理、推荐系统、数据分析、视频图像分析、数据保存等。适合应用于大数据存储和大数据分析的应用,适合于服务器几千台到几万台的集群运行,支持PB级的存储容量。