Pyspark 数据工程师 看这一篇就够了
大数据前驱知识
hadoop: 一个大数据计算框架,使用hdfs作为存储,多个廉价的集群组成集群
hive:丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据:可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能;
mapreduce: 一个计算任务被拆分为多个部分,分配到集群下的计算机,多台计算机并行计算并将结果汇总.
一、背景介绍
spark 是和hadoop 一样的分布式数据计算框架,但是hadoop是基于HDFS 文件存储的,而 spark 是基于内存的 所以速度
原创
2021-01-20 11:34:47 ·
221 阅读 ·
0 评论