2021-02-28

最新推荐文章于 2022-05-10 23:57:12 发布

qq_45543567

最新推荐文章于 2022-05-10 23:57:12 发布

阅读量143

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/qq_45543567/article/details/114222483

版权

笔记专栏收录该内容

8 篇文章 0 订阅

订阅专栏

知识点：
Spark是一门热门的大数据处理技术。
支持采用Scala.java.python和R语言进行编程。
在这里插入图片描述

Spark和Hadoop安装所需准备：
1.jdk-1.8
2. hdfs 2.7.7
IT三次信息浪潮：
1980年个人计算机解决问题：信息处理代表：苹果，戴尔
1995年前后互联网解决问题：信息传输代表：阿里，腾讯
2010年前后物联网云计算和大数据解决问题：信息爆炸代表：新的市场标杆企业。
大数据概念：（包含大量数据，速度快，结构和样式多，价值大）
1.数据量大
2.类型多：大数据由结构化（10%数据库）和非结构化数据（90%）组成
3.处理速度快例子：微博，淘宝等等
4.价值密度低，商业价值高。例：监控视频。大数据的影响：
实验，理论，计算，数据。
大数据关键技术：
数据采集（爬虫），
数据存储和管理（hdfs，mysql），
数据处理和分析（mr，spark），
数据隐私和安全。
在这里插入图片描述
大数据的两核心技术：（谷歌）
分布式存储，
分布式处理。
大数据计算模式：
批处理计算，
流计算，
图计算，
查询分析计算。
代表性大数据技术：
Hadoop（hdfs和mapreduce），
Spark（大数据处理技术）
Filnk（开源流处理框架），
Beam（大数据的编程模型，执行引擎的实现）。
Filnk与Spark对比:

Hadoop与Spark对比
在这里插入图片描述
Spark概念（只做计算，不做存储）
spark是基于内存计算的大数据并行计算框架，可用于构建大型的，低延迟的数据分析应用程序。
特点：运行速度快，易用性强，共性强，到处跑，容易使用。
补充:三大分布式计算系统开源项目：hadoop，spark，storm。