spark
Poolweet_
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark中实现二次排序
二次排序就是首先按照第一字段排序,然后再对第一字段相同的行按照第二字段排序,注意不能破坏第一次排序的结果object Demo02 { def main(args: Array[String]): Unit = { //控制日志输出 Logger.getLogger("org").setLevel(Level.ERROR) val conf = new SparkConf().setAppName("twosort").setMaster("local") val sc =原创 2020-09-09 09:56:45 · 661 阅读 · 0 评论 -
Spark知识点全总结
1.spark生态:Spark Corespark 的核心计算 ,用于通用分布式数据处理的引擎。不依赖于任何其他组件,可以运行在任何商用服务器集群上。实现饿了 Spark 的基本功能,包含任务调度、内存管理、错误恢复,与存储系统交互等模块。还包含了对弹性分布式数据集(Resilient Distributed Dataset,简称RDD)的API 定义。Spark SQL是Spark用来操作结构化数据的程序包,可以使用SQL或者HQL来对历史数据做交互式查询(即席查询:用户根据自己的需求 自定义原创 2020-09-09 10:57:27 · 3737 阅读 · 0 评论 -
Spark sql知识点和执行流程图
1.什么是Spark SQLSpark SQL 是 Spark 用来处理结构化数据的一个模块,它提供了 2 个编程抽象:DataFrame 和 DataSet,并且作为分布式 SQL 查询引擎的作用执行流程2.Spark SQL 的特点1)易整合2)统一的数据访问方式3)兼容 Hive4)标准的数据连接3.什么是DataFrame?与 RDD 类似,DataFrame 也是一个分布式数据容器。然而 DataFrame 更像传统数据库的二维表格,除了数据以外,还记录数据的结构信息,即 s原创 2020-09-08 17:34:24 · 707 阅读 · 0 评论 -
Spark提交流程
① 打包程序为 xxx.jar,上传到某个节点上② 执行一个 `SparkSubmit` ,在SparkSubmit中,会写各种配置信息(--master、CPU、内存)③ 以 `client` 模式为例,会在提交的节点上启动一个 driver进程④ Driver就是我们的 `application`,Wordcount⑤ 创建 `SparkContext` 对象,会在内部创建(`DAGscheduler`,`Taskscheduler`)⑥ 在driver中,代码如果遇到了 `actio原创 2020-09-08 17:00:06 · 566 阅读 · 0 评论
分享