spark
文章平均质量分 85
mizui_i
这个作者很懒,什么都没留下…
展开
-
spark sql 总结
一.概述1.前世今生大量数据需要处理 ➡️ MapReduce出现 sql on mr ➡️ Hive mr效率太低 ➡️ Tez Tez效率低 ➡️ Spark sql on spark ➡️ Shark(太多的的借鉴了Hive制约了它,然后被推翻了,现在已经被弃用) sql on spark ➡️ SparkSql2.简介Spark SQL是Spark处理数据的一个模块 专门用来处理结构化数据的模块,像json,parquet,avro,csv,普通表格数据等均可。 与基础R原创 2021-12-05 00:48:54 · 633 阅读 · 0 评论 -
spark 常用算子
一.概述算子 英文翻译为:Operator(简称op) 狭义:指从一个函数空间到另一个函数空间(或它自身)的映射。 广义:指从一个空间到另一个空间的映射 通俗理解:指事物(数据或函数)从一个状态到另外一个状态的过程抽象。 实质就是映射,就是关系,就是变换。 算子的重要作用 算子越少,灵活性越低,则实现相同功能的编程复杂度越高,算子越多则反之。 算子越少,表现力越差,面对复杂场景则易用性较差。算子越多的则反之。 MapReduce 与 Spark算子比较 MapRed原创 2021-12-05 00:42:15 · 432 阅读 · 0 评论 -
spark core 总结
一.Spark 架构设计架构设计图二.相关术语名词解释RDD (Resilient Distributed DataSet) 弹性分布式数据集,是对数据集在spark存储和计算过程中的一种抽象。 是一组只读、可分区的的分布式数据集合。 一个RDD 包含多个分区Partition(类似于MapReduce中的InputSplit),分区是依照一定的规则的,将具有相同规则的属性的数据记录放在一起。 横向上可切分并行计算,以分区Partition为切分后的最小存储和计算单元。 .原创 2021-12-05 00:33:25 · 382 阅读 · 0 评论 -
spark 初识
一.概述大数据领域分类 离线处理 实时处理 大数据开发瓶颈 IO 绝大多数的瓶颈都卡在这里 计算 一般涉及到深度学习,人工智能等领域会遇到计算瓶颈,一般放在GPU上去跑 spark mapreduce遇到的瓶颈 操作类型有限,仅支持map和reduce两种操作 编程复杂较高,学习成本高 处理效率低 map中间结果xie磁盘,reduce结果xiehdfs,多个mr之间通过hdfs交换数据 任务调度和启动开销比较大原创 2021-12-05 00:24:34 · 118 阅读 · 0 评论