spark
Poolweet_
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark中实现二次排序
二次排序就是首先按照第一字段排序,然后再对第一字段相同的行按照第二字段排序,注意不能破坏第一次排序的结果 object Demo02 { def main(args: Array[String]): Unit = { //控制日志输出 Logger.getLogger("org").setLevel(Level.ERROR) val conf = new SparkConf().setAppName("twosort").setMaster("local") val sc =原创 2020-09-09 09:56:45 · 673 阅读 · 0 评论 -
Spark知识点全总结
1.spark生态: Spark Core spark 的核心计算 ,用于通用分布式数据处理的引擎。不依赖于任何其他组件,可以运行在任何商用服务器集群上。实现饿了 Spark 的基本功能,包含任务调度、内存管理、错误恢复,与存储系统交互等模块。还包含了对弹性分布式数据集(Resilient Distributed Dataset,简称RDD)的API 定义。 Spark SQL 是Spark用来操作结构化数据的程序包,可以使用SQL或者HQL来对历史数据做交互式查询(即席查询:用户根据自己的需求 自定义原创 2020-09-09 10:57:27 · 3754 阅读 · 0 评论 -
Spark sql知识点和执行流程图
1.什么是Spark SQL Spark SQL 是 Spark 用来处理结构化数据的一个模块,它提供了 2 个编程抽象: DataFrame 和 DataSet,并且作为分布式 SQL 查询引擎的作用 执行流程 2.Spark SQL 的特点 1)易整合 2)统一的数据访问方式 3)兼容 Hive 4)标准的数据连接 3.什么是DataFrame? 与 RDD 类似,DataFrame 也是一个分布式数据容器。 然而 DataFrame 更像传统数据库的二维表格,除了数据以外,还记录数据的结构信息,即 s原创 2020-09-08 17:34:24 · 713 阅读 · 0 评论 -
Spark提交流程
① 打包程序为 xxx.jar,上传到某个节点上 ② 执行一个 `SparkSubmit` ,在SparkSubmit中,会写各种配置信息(--master、CPU、内存) ③ 以 `client` 模式为例,会在提交的节点上启动一个 driver进程 ④ Driver就是我们的 `application`,Wordcount ⑤ 创建 `SparkContext` 对象,会在内部创建(`DAGscheduler`,`Taskscheduler`) ⑥ 在driver中,代码如果遇到了 `actio原创 2020-09-08 17:00:06 · 575 阅读 · 0 评论
分享