大数据系统基础 | 绪论

1 什么是大数据

1、Big data is an all-encompassing term for any collection of data sets so large and complex that it becomes difficult to process using traditional data processing apllications.
-http://en.wikipedia.org/wiki/Big_data
2、如果一个数据集的规模或者是其处理的复杂性,用传统的数据处理系统难以驾驭的话,我们就把这样的数据集称为大数据。
3、大数据系统是用于大数据分析处理的软件系统。

2 大数据典型应用

1、沃尔玛“啤酒加尿布”经典案例,1993年
2、塔吉特百货孕妇营销分析,2002年
3、谷歌对流感的成功预测,2009年
4、奥巴马借助大数据连任成功,2012年
5、微软大数据成功预测奥斯卡21项大奖,2013年

3 大数据的特点

1、大数据的规模,从TB,PB,EB,ZB甚至到了ZB级
2、多样的数据类型
(1)结构化数据(关系):先有模式,后有数据
(2)半结构化数据(XML):先有部分模式
(3)非结构化数据(文本):先有数据,后有模式
3、大数据分析生命周期
获取、记录–>抽取、清洗–>集成、聚合–>分析、建模–>解释、展示
5个共性的基础问题:异构、规模、时效、隐私、协同
4、大数据深度加工
(1)数据Raw data
i.e.,uprocessed data,refers to a collection of numbers,characters and is a relative term
(2)信息Information
is that which informs,i.e. that from which data can be derived.
(3)知识Knowledge
can refer to a theoretical or practical understanding of a subject.
(4)智慧Insight
is the understanding of a specific cause and effect in a specitfic context
5、大数据处理方式
(1)批量 Batch
(2)在线 Online
(3)实时 Real-time
6、大数据的用户:内部用户和外部用户
(1)Data Provider - makes available data internal and/or external to the system
(2)Data Consumer - uses the output of the system
(3)System Orchestrator - governance,requirements,monitoring
(4)Big Data Application Provider - instantiates application
(5)Big Data Framework Provider - provides resources and platforms
7、大数据的质量
(1)精确性:数据是否精确表述一个事实
(2)完整性:是否所有必要的数据都已经实现
(3)一致性:不同数据实体间关系是否一致
(4)时效性:数据及其起源是否能够及时获取
8、大数据的价值
(1)价值密度的稀疏
(2)大量样本的长尾

4 大数据技术体系

1、大数据技术体系现状

2、数据质量-无法回避的挑战
(1)传统数据质量仅通过ETL方式执行
–即抽取、转换、加载,包括解析、模式分析等
–没有完全覆盖数据质量的基本性质
(2)挑战
–分布式环境中,如何保障全局数据的一致性、精确性、完整性
–流处理环境中,如何保证时效性,例如,时序一致性。
(3)在大数据中保证绝对的数据质量并不现实
–高维、异质、模糊、海量、多变
3、存储的老问题、新挑战:多副本、高并发、分布式索引、流式技算、磁盘压缩、集群管理等。
4、某些(核心)转变
(1)Hash大于扫描
(2)单副本转向多副本
(3)单阶段转为多阶段
(4)压缩不再解压
5、大数据分析的特点

类别传统BI数据科学&大数据分析
焦点发生了什么将要发生什么
数据小规模、干净数据,简单的统计模型大规模、多样化、无关联数据、语义模糊、复杂的预测模型
支持因果分析:事件及其发生的原因关联分析:利用多个弱关联数据源发现有潜在价值的结果

6、大数据要解决的主要问题
(1)监控动态流数据,跟踪变化趋势,而非仅仅考虑静态数据
(2)和数据科学家一起工作,而非仅依靠数据分析师
(3)将分析工具集成到核心业务和营运环节
7、可视化的挑战
将大规模数据中蕴含的信息、知识与规律,利用计算机软件更好地揭示出来

8、计算范型
(1)数据找程序 -> 程序找数据
(2)Scale Up -> Scale Out
(3)传统计算 -> 云计算 Virtual Machine & Multi Tenants
(4)CPU -> HPU (Crowdsourcing)

5 大数据生态系统

1、大数据生态系统

2、Hadoop的生态圈

3、Berkeley大数据处理平台(BDAS)

BDAS的优势
(1)综合性的解决方案:在统一的框架内开发大数据音乐
(2)高效的解决方案:BDAS的目标是快速处理大量数据

\主流解决方案BDAS解决方案BDAS的优势
文件系统HDFSTachyon数据读写速度提高300倍
MapReduceHadoopSpark运行速度提高10-100倍
SQL查询HiveShark查询速度提高40倍
处理数据流StormSpark Streaming处理速度提高2倍
图运算HadoopGraphX运算速度提高10倍

6 大数据技术挑战

1、人们普遍认识到了数据“大”(Volume),不是数据科学面临的全部挑战,甚至不是主要挑战。来自不同数据源的、不同类型、不同语义(Variety)的数据集合的深度综合与融合问题远没有解决,同时,物联网、传感网、穿戴设备等机器数据的快速到达(Velocity),对数据处理的时效性提出了更大的挑战,除此之外数据隐私与可用性(包括数据质量)问题更是存在挑战
2、数据科学(包括大数据技术)的创新与探索刚刚起步,并行进在泥泞当中。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值