spark
文章平均质量分 79
Ronney-Hua
这个作者很懒,什么都没留下…
展开
-
Linux CentOS6离线安装Jupyter notebook
1、环境介绍Linux: CentOS 6.7Python: 2.72、安装python3.5下载python3.5安装包:wget –no-check-certificate https://www.python.org/ftp/python/3.5.0/Python-3.5.0.tgz解压到当前目录:tar -zxvf Python-3.5.0.tgzcd Python-3.5.0./conf原创 2017-09-22 15:35:22 · 6263 阅读 · 1 评论 -
Spark性能调优
通常我们对一个系统进行性能优化无怪乎两个步骤——性能监控和参数调整,本文主要分享的也是这两方面内容。一、性能监控工具 【Spark监控工具】 Spark提供了一些基本的Web监控页面,对于日常监控十分有用。 1、Application Web UI http://master:4040(默认端口是4040,可以通过spark.ui.port修改)可获得这些信息: (1)stag转载 2017-10-20 10:24:01 · 639 阅读 · 0 评论 -
Spark学习之RDD的概念
RDD又叫弹性分布式数据集,是Spark数据的基础单元,Spark编程是围绕着在RDD上创建和执行操作来进行的。它们是跨集群进行分区的不可变集合(immutable collection),如果某个分区丢失,这些分区可以重建(重新计算)。它们是使用数据流运算符(map, filter, groupby)在稳定存储中通过对数据进行变换而创建的,并且可以在并行运算架构的内存中进行缓存。弹性:如果内存中的原创 2017-11-16 10:37:11 · 345 阅读 · 0 评论 -
Spark集群,多个版本Python/Python Package管理
文章转载自:http://blog.csdn.net/gongbi917/article/details/52369025仅用于个人学习备忘收藏,转载请注明原文地址进年来,越来越多的数据科学家、分析人员、数据工程师运用Python语言进行数据分析和机器学习。Spark在0.7版本开始支持Python语言(PySpark)。 相比于Scala/Java, Python语言更适合互转载 2017-12-16 11:31:14 · 956 阅读 · 0 评论