知识点:
Spark是一门热门的大数据处理技术。
支持采用Scala.java.python和R语言进行编程。
Spark和Hadoop安装所需准备:
1.jdk-1.8
2. hdfs 2.7.7
IT三次信息浪潮:
1980年 个人计算机 解决问题:信息处理 代表:苹果,戴尔
1995年前后 互联网 解决问题:信息传输 代表:阿里,腾讯
2010年前后 物联网云计算和大数据 解决问题:信息爆炸 代表:新的市场标杆企业。
大数据概念:(包含大量数据,速度快,结构和样式多,价值大)
1.数据量大
2.类型多:大数据由结构化(10%数据库)和非结构化数据(90%)组成
3.处理速度快 例子:微博,淘宝等等
4.价值密度低 ,商业价值高。例:监控视频。大数据的影响:
实验,理论,计算,数据。
大数据关键技术:
数据采集(爬虫),
数据存储和管理(hdfs,mysql),
数据处理和分析(mr,spark),
数据隐私和安全。
大数据的两核心技术:(谷歌)
分布式存储,
分布式处理。
大数据计算模式:
批处理计算,
流计算,
图计算,
查询分析计算。
代表性大数据技术:
Hadoop(hdfs和mapreduce),
Spark(大数据处理技术)
Filnk(开源流处理框架),
Beam(大数据的编程模型,执行引擎的实现)。
Filnk与Spark对比:
Hadoop与Spark对比
Spark概念(只做计算,不做存储)
spark是基于内存计算的大数据并行计算框架,可用于构建大型的,低延迟的数据分析应用程序。
特点: 运行速度快,易用性强,共性强,到处跑,容易使用。
补充:三大分布式计算系统开源项目:hadoop,spark,storm。