大数据出现:1960-1970年,网状数据库、层次数据库出现。
大数据发展:1970-1980年,关系理论与SQL语言,关系数据库理论。
大数据稳步提高:1980-1990年,联机事务处理系统(OLTP),面向交易的处理系统。
大数据再创新高:1985-1989年,面向对象。
大数据持续:1990-2000年,文本与多媒体数据库。
大数据未来:2000-2010年,WEB/XML数据库,分析挖掘(OLAP/DM)。
大数据未来的突破:2010-2020年,出现NOSQL/NEWSQL。
大数据定义:
维基百科:Big data is an all-encompassing term for any collection of data
sets so large and complex that it becomes difficult to process using
traditional data processing apllications.
数据集的规模或其处理的复杂性,用传统的数据处理系统难以驾驭。
巨量数据集合,无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据系统:用于大数据分析处理的软件系统。
数据类型:
♦结构化数据(关系):先有模式,后有数据
♦半结构化数据(XML):先有部分模式
♦非结构化数据(文本):先有数据,后有模式
大数据分析生命周期(美国CRA组织):获取/记录→抽取/清洗→集成/聚合→分析/建模→解释/展示
→解决共性的基础问题:1.异构数据的集成问题;2.规模的可扩展问题;3.处理的时效问题;4.数据的隐私保护问题;5.跨越生命周期的人员的协同问题
大数据深度加工(发展过程):数据→信息→知识→智慧
大数据处理方式(发展过程):批量(传统)→在线(互联网时代)→实时(当前)
大数据系统的用户:内部用户+外部用户
美国EST标准的5类用户:1.Data Provider 2.Data Consumer 3.System Orchestrator 4.Big Data Application Provider 5.Big Framework Provider
大数据的质量:
♦精确性:精确表达一个事实
♦完整性:所有必要的数据都已呈现
♦一致性:不同数据实体间关系一致
♦时效性:数据及其起源能及时获取
大数据的价值:1.价值密度的稀疏 2.大量样本的长尾
大数据技术体系现状:1.采集与集成 2.存储与管理 3.分析与挖掘 4.可视化 5.计算范型 6.隐私与安全
某些(核心)转变:1.Hash大于扫描 2.单副本转向多副本 3.单阶段转为多阶段 4.压缩不再解压
大数据分析的特点:
计算范型:
1.数据找程序→程序找数据
2.Scale Up→Scale Out
3.传统计算→云计算 Virtual Machine & Multi Tenants
4.CPU→HPU (Crowdsourcing)
♦大数据生态系统
♦Hadoop的生态圈
♦Berkeley大数据处理平台(BDAS)
BDAS的优势:
1.综合性的解决方案:在统一的框架内开发大数据音乐
2.高效的解决方案:BDAS的目标是快速处理大量数据