一、什么是大数据?
四V:Volume(大量) ,Velocity(高速),Variety(多样),Value(价值)
二、大数据的挑战
1.大数据的分析:数据处理要求实时性。
2.大数据集成:数据存在广泛的异构性,数据质量不高。
3.大数据管理应用问题:大数据处理得到的结果可能多样化,应用者对大数据工具的了解限制了其从中获取知
识的能力。
4.大数据处理与硬件的协同:硬件异构性带来大数据处理的难题。新硬件给大数据处理大量变革。
5.大数据能耗问题:采用新型低功能耗硬件;引入可再生新能源。
6.大数据隐私问题:隐性的数据暴露,一个人多点独立行为数据汇集,造成隐私暴露;数据公开与隐私保护的
矛盾。
三、Google三篇论文
1. GFS 是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉
价的普通硬件上,提供容错功能。
2. MapReduce是针对分布式并行计算的一套编程模型。
3. BigTable 分布式表格系统,就像文件系统需要数据库来存储结构化数据一样,GFS也需要Bigtable来存储 结构化数据。
四、Google与开源项目
GFS --------> HDFS
MapReduce---------> MapReduce
BigTable------------->Hbase
五、什么是hadoop?
1. Hadoop是apache旗下的一套开源软件平台。
2. Hadoop适合应用于大数据存储和大数据分析的应用,适合于服务器几千台到几万台的集群运行,支持PB级
的存储容量。
3.Hadoop提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理。
4.Hadoop典型应用有:搜索、日志处理、推荐系统、数据分析、视频图像分析、数据保存等。
5.Hadoop核心四大组件:
a.Common(基础组件)
b.HDFS(分布式文件系统)
c.YARN(运算资源调度系统)
d.MAPREDUCE(分布式运算编程框架)
6.广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈