大数据系统基础--绪论

大数据出现:1960-1970年,网状数据库、层次数据库出现。

大数据发展:1970-1980年,关系理论与SQL语言,关系数据库理论。

大数据稳步提高:1980-1990年,联机事务处理系统(OLTP),面向交易的处理系统。

大数据再创新高:1985-1989年,面向对象。

大数据持续:1990-2000年,文本与多媒体数据库。

大数据未来:2000-2010年,WEB/XML数据库,分析挖掘(OLAP/DM)。

大数据未来的突破:2010-2020年,出现NOSQL/NEWSQL。

大数据定义

维基百科:Big data is an all-encompassing term for any collection of data
sets so large and complex that it becomes difficult to process using
traditional data processing apllications.

数据集的规模或其处理的复杂性,用传统的数据处理系统难以驾驭。

巨量数据集合,无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据系统:用于大数据分析处理的软件系统。

数据类型

♦结构化数据(关系):先有模式,后有数据

♦半结构化数据(XML):先有部分模式

♦非结构化数据(文本):先有数据,后有模式

大数据分析生命周期美国CRA组织):获取/记录→抽取/清洗→集成/聚合→分析/建模→解释/展示
→解决共性的基础问题:1.异构数据的集成问题;2.规模的可扩展问题;3.处理的时效问题;4.数据的隐私保护问题;5.跨越生命周期的人员的协同问题

大数据深度加工(发展过程):数据→信息→知识→智慧

大数据处理方式(发展过程):批量(传统)→在线(互联网时代)→实时(当前)

大数据系统的用户:内部用户+外部用户

美国EST标准的5类用户:1.Data Provider 2.Data Consumer 3.System Orchestrator 4.Big Data Application Provider 5.Big Framework Provider

大数据的质量

精确性:精确表达一个事实

完整性:所有必要的数据都已呈现

一致性:不同数据实体间关系一致

时效性:数据及其起源能及时获取

大数据的价值:1.价值密度的稀疏 2.大量样本的长尾

大数据技术体系现状:1.采集与集成 2.存储与管理 3.分析与挖掘 4.可视化 5.计算范型 6.隐私与安全

某些(核心)转变:1.Hash大于扫描 2.单副本转向多副本 3.单阶段转为多阶段 4.压缩不再解压

大数据分析的特点

计算范型:

1.数据找程序→程序找数据
2.Scale Up→Scale Out
3.传统计算→云计算 Virtual Machine & Multi Tenants
4.CPU→HPU (Crowdsourcing)

♦大数据生态系统

♦Hadoop的生态圈

♦Berkeley大数据处理平台(BDAS)

BDAS的优势

1.综合性的解决方案:在统一的框架内开发大数据音乐
2.高效的解决方案:BDAS的目标是快速处理大量数据

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
│ docs.rar │ 免责声明.txt │ 抓取档目录结构.txt │ 课程介绍及抓取说明.txt │ 课程封面图-大数据系统基础(自主模式).jpg │ 课程简介-大数据系统基础(自主模式).mp4 │ ├─1. 绪论 │ 0 什么是大数据.mp4 │ 1 大数据典型应用.mp4 │ 2 大数据的特点.mp4 │ 3 大数据技术体系.mp4 │ 4 大数据生态系统.mp4 │ 5 大数据技术挑战.mp4 │ 6 课程内容.mp4 │ ├─2.云计算 │ 0 2.1大数据和云计算关系概述.mp4 │ 1 2.2并行化理念.mp4 │ 10 2.11网络虚拟化:软件定义网络.mp4 │ 11 2.12软件定义网络实现.mp4 │ 12 2.13存储虚拟化:用户接口.mp4 │ 13 2.14存储虚拟化:分布式存储实现方式.mp4 │ 14 2.15虚拟化技术总结.mp4 │ 15 2.16OPENSTACK.mp4 │ 16 2.17云计算小结.mp4 │ 2 2.3规模经济理念.mp4 │ 3 2.4从仓库规模计算机到云.mp4 │ 4 2.5云计算商业模式概述.mp4 │ 5 2.6云计算带来的价值.mp4 │ 6 2.7云计算的分类.mp4 │ 7 2.8虚拟化技术概述.mp4 │ 8 2.9计算虚拟化.mp4 │ 9 2.10网络虚拟化:基础.mp4 │ ├─3.文件存储 │ 0 Video.mp4 │ 1 Video.mp4 │ 10 Video.mp4 │ 11 Video.mp4 │ 12 Video.mp4 │ 13 Video.mp4 │ 14 Video.mp4 │ 15 Video.mp4 │ 2 Video.mp4 │ 3 Video.mp4 │ 4 Video.mp4 │ 5 Video.mp4 │ 6 Video.mp4 │ 7 Video.mp4 │ 8 Video.mp4 │ 9 Video.mp4 │ ├─4. 处理框架 │ 0 4.1大数据的处理框架.mp4 │ 1 4.2MapReduce编程模型.mp4 │ 10 4.11Pig Latin 实现与优化.mp4 │ 11 Pig Latin 实现与优化(2).mp4 │ 12 4.13类似框架.mp4 │ 13 4.14章节总结.mp4 │ 2 MapReduce执行过程.mp4 │ 3 4.4MapReduce数据流.mp4 │ 4 4.5MapReduce性能优化与容错.mp4 │ 5 4.6Hadoop.mp4 │ 6 4.7MapReduce总结.mp4 │ 7 4.8Pig Latin.mp4 │ 8 4.9Pig Latin语法.mp4 │ 9 4.10Pig Latin 嵌套数据类型.mp4 │ ├─5.内存计算 │ 0 5.1内存计算概述.mp4 │ 1 5.2并行计算挑战.mp4 │ 10 5.11大数据并行系统.mp4 │ 11 5.12Spark编程接口.mp4 │ 12 5.13Spark编程实例——Log挖掘.mp4 │ 13 5.14Spark编程实例——WorkCount.mp4 │ 14 5.15Spark实现技术.mp4 │ 15 5.16复杂的DAG示例.mp4 │ 16 5.17RDD性能的提高.mp4 │ 17 5.18Spark应用和生态环境.mp4 │ 18 5.19Spark的局限性.mp4 │ 2 5.3并行计算的局限性.mp4 │ 3 5.4大数据处理并行系统.mp4 │ 4 5.5内存计算需求.mp4 │ 5 5.6MapReduce文件传递数据.mp4 │ 6 5.7内存计算的可行性.mp4 │ 7 5.8内存层次的延迟.mp4 │ 8 5.9内存计算实例-spark.mp4 │ 9 5.10SPARK-RDD.mp4 │ ├─6. NoSQL │ 0 NoSQL与Cassandra.mp4 │ 1 数据模型、接口、语言.mp4 │ 2 系统架构与Gossip协议.mp4 │ 3 一致性哈希与数据分区.mp4 │ 4 数据副本及一致性.mp4 │ 5 节点本地数据存储.mp4 │ └─7. 流计算 0 Video.mp4 1 Video.mp4 2 Video.mp4 3 Video.mp4 4 Video.mp4 5 Video.mp4 6 Video.mp4 7 Video.mp4 8 Video.mp4 9 Video.mp4
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值