Spark
Spark
Ch3nnn
这个作者很懒,什么都没留下…
展开
-
Spark与Pandas中DataFrame对比
Pandas Spark 工作方式 单机single machine tool,没有并行机制parallelism 不支持Hadoop,处理大量数据有瓶颈 分布式并行计算框架,内建并行机制parallelism,所有的数据和操作自动并行分布在各个集群结点上。以处理in-memory数据的方式处理distributed数据。 支持Hadoop,能处理大量数...原创 2020-01-09 15:28:52 · 209 阅读 · 0 评论 -
PySpark RDD学习笔记-转化操作 行动操作 惰性求值 持久化
RDD核心概念 Spark中的转化操作是操作RDD并返回一个新的RDD的函数, 而行动操作是操作RDD并返回一个值或进行输出. 粗粒度转化出操作对比细粒度转化操作 粗粒度: 对RDD进行的操作被认为是粗粒度的, 因为操作会把函数作用于数据集里的每个一元素, 并返回转化操作应用后得到的新数据集. 细粒度: 转化转化操作可以操控单条记录或者单元格, 比如关系型数据库里面单条记录更新, 或者...原创 2020-01-05 15:21:21 · 590 阅读 · 0 评论 -
Spark分布式集群搭建及注意事项
环境准备 服务器集群 我用的CentOS,主机名为KF3-es-cluster-148、KF3-es-cluster-149、KF3-es-cluster-150,另外我会使用root用户搭建集群(生产环境中root用户不是可以任意使用的) spark安装包 下载地址:https://mirrors.aliyun.com/apache/spark/ 我用的spar...原创 2019-11-29 17:54:59 · 573 阅读 · 0 评论 -
Docker搭建Spark
.docker编排工具docker-compose安装 使用官网指导方式安装(不推荐)https://docs.docker.com/compose/install/ 使用国内镜像源安装(推荐) curl -L https://get.daocloud.io/docker/compose/releases/download/1.22.0/docker-compose-...原创 2019-11-13 11:01:48 · 383 阅读 · 0 评论