目录
前言
本人是一个普通的在校学生,计算机网络专业,思科学了两年还在NA和NP间徘徊,其他的课程倒是学的挺杂,比方说Python、CAD、MySQL、HTML等,虽然说胜在学的多吧,但是都不精,在大佬面前顶多是个入门的水平,我觉得不能在虚度时光,便申请加入了学校的备赛班。
刚进去的时候看着学长们的两块显示器还有发光的键盘,物理意义上的感觉自己被碾压了。所幸老师没有嫌弃我是个纯小白,还给我推荐了大数据这条路,希望在学校剩下的时间能让我真正拥有一技之长。
在备赛班的近两个月,我确实在学习路上遇到了不少阻碍:第一天坐在我坐在我的机位上迷茫了许久都不知道该做些什么;安装了系统却发现vm默认是英文,自己啥也看不懂;系统的vi编辑器有故障,按方向键出来都是ABCD;以及最坑的校园网,深信服拦截了我配置的阿里源,让我两天都没有任何进展......
为了更好更全面的复习,为了让像我一样迷茫的小白找到方向,这就是我写这篇笔记的目的,我也不是个会写长篇大论的人,话还是不多说了,下面还是看我的笔记。
一、什么是大数据?
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
ps:以上摘抄自百度百科,说实话这个我看不懂,按照我目前的理解,大概就和仓管差不多吧,只不过管理的是数据。
Hadoop是目前应用最为广泛的分布式大数据处理框架,其具备可靠、高效、可伸缩等特点;他的核心组件是HDFS、MapReduce:
HDFS具有高容错、高吞吐量的特点;同时有不能修改、不适合低延迟和不支持并行写入的缺点。换而言之,HDFS同时只能有一个用户写入、且不适合写入小文件、适合一次大量写入多次读取。
MapReduce是一个基于集群的高性能并行计算平台。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群,提供了一个庞大但设计精良的并行计算软件框架,能自动完成计算任务的并行化处理,自动划分计算数据和计算任务,在集群节点上自动分配和执行任务以及收集计算结果,将数据分布存储、数据通信、容错处理等并行计算涉及到的很多系统底层的复杂细节交由系统负责处理,