一、什么是大数据
二、大数据的基本特征
类型繁多(Variety):第二个特征是种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络 日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高 的要求。
价值密度低(Value):第三个特征是数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物 联网的广泛应用,信息感知无处不在,信息海量,但价值 密度较低,如何结合业务逻辑并通 过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。
速度快时效高(Velocity):第四个特征数据增长速度快,处理速度也快,时效性要求高。
数据是在线的(Online)。数据是永远在线的,是随时能调用和计算的,这是大数据区别于传统数据最大的特征。
三、大数据的数据单位
四、大数据的数据结构
非结构化数据:非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,
不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、
文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。
半结构化数据:指结构数据中,结构不规则的数据,由于结构变化很大也不能够简单的
建立一个表和他对应。如:声音、图像文件等之间的数据,HTML文档就
属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,
没有明显的区分。
五、大数据的计算模式
批处理计算 ( MapReduce,Spark):最适合于完成大数据批处理的计算模式是MapReduce,首先,MapReduce对具有简单数据关系、易于划分的大规模数据采用“分而治之”的并行处理思想;然后将大量重复的数据记录处理过程总结成Map和Reduce两个抽象的操作;最后MapReduce提供了一个统一的并行计算框架,把并行计算所涉及到的诸多系统层细节都交给计算框架去完成,以此大大简化了程序员进行并行化程序设计的负担。
流式计算 (Scribe ,Flume,Storm,S4,SparkStreaming)流式计算是一种高实时性的计算模式,需要对一定时间窗口内应用系统产生的新数据完成实时的计算处理,避免造成数据堆积和丢失。
迭代计算 ( HaLoop ,iMapReduce,Twister,Spark)为了克服Hadoop MapReduce难以支持迭代计算的缺陷,工业界和学术界对Hadoop MapReduce进行了不少改进研究。HaLoop把迭代控制放到MapReduce作业执行的框架内部,并通过循环敏感的调度器保证前次迭代的Reduce输出和本次迭代的Map输入数据在同一台物理机上,以减少迭代间的数据传输开销;
交互式计算
图计算 (Pregel,PowerGrapg,GraphX)
内存计算 (Dremel,Hana,redis)
六、大数据的工作流程
1、采集与预处理
从数据源采集的数据,需要通过数据融合、数据集成、数据整合,生成新的数据集,供后续查询、分析、处理提供统一的数据视图
2、存储管理
分布式文件系统
分布式数据库(NEWSQL、NOSQL)
3、计算模式
包括批处理、交互式处理、流式计算、迭代计算、图计算、内存计算
4、分析与挖掘
5、可视化处理
七、CDH简介
CDH首先是100%开源,基于Apache协议。基于Apache Hadoop和相关projiect开发。可以做批量处理,交互式sql查询和及时查询,基于角色的权限控制。在企业中使用最广的hadoop分发版本。
八、分布式架构设计CAP的工作原理