![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据积累
phyllisyuell
学习交流,做一枚认真的程序媛!
展开
-
分布式&单机 python&scala
1、运行toPandas()时,数据帧从分布式(工作)内存复制到本地(主)内存,并丢失大部分分布式计算功能。原创 2021-02-23 22:57:43 · 172 阅读 · 0 评论 -
Spark、Hive杂谈
一、Hive杂谈二、Spark杂谈1、spark core和 spark sqlSpark SQL构建在Spark Core之上,专门用来处理结构化数据(不仅仅是SQL)。即Spark SQL是Spark Core封装而来的!Spark SQL在Spark Core的基础上针对结构化数据处理进行很多优化和改进, 简单来讲: Spark SQL 支持很多种结构化数据源,可以让你跳过复杂的读取过程,轻松从各种数据源中读取数据。 当你使用SQL查询这些数据源中的数据并且只原创 2021-02-23 22:57:07 · 152 阅读 · 0 评论 -
Spark作业性能预测模型
一、背景和研究现状1、基础知识1)任务是Spark的最小执行单元。由于不同任务所需 数据可能存在于集群各节点上,且数据量不尽相同,导致 同样计算逻辑任务在不同的计算节点上执行的时间产生很大差异,需要根据应用运行的实时环境进行动态预预测。对任务执行时间的有效预测可以指导Spark进行 性能分析、优化资源调度以及监控平台故障。目前,在Spark平台还没有成熟的任务执行时间预估技术。2)对于Spark作业性能的预测应该从以下几个方面进行:Spark平台任务的拉取、执行过程,结合各任务在不同节.原创 2021-02-23 22:54:54 · 1053 阅读 · 0 评论 -
scala spark常见问题
1、解决Spark2.0之后,报错No implicits found for parameter evidence$6: Encoder当我们在使用spark1.6的时候,当我们创建SQLContext读取一个文件之后,返回DataFrame类型的变量可以直接.map操作,不会报错。但是升级之后会报上述错误,解决办法;import sess.implicits._隐式转换...原创 2021-02-23 22:53:16 · 436 阅读 · 0 评论