spark
余康-数据研究,足球迷弟
一个热爱解决IT问题,足球狂热迷的IT屌丝
展开
-
spark大数据计算引擎原理深剖(优缺点)-spark简介
用spark,你仅仅只是调用spark的API肯定是很low的。今天来讲讲spark的原理,并且会针对部分源码进行讲解,如有不同意见请联系本人交流探讨。目前大数据生态主要部分是Hadoop软件框架和Spark内存级计算引擎。Hadoop包含四个项目:Hadoop common,HDFS,YARN和MapReduce。点击这里有Hadoop详情安装教程。 Spark并不是要成为一个大数据领域的“独裁...原创 2018-03-14 21:44:32 · 15769 阅读 · 0 评论 -
Exception: Java gateway process exited before sending the driver its port number(以解决)附源码
代码如下:#! /usr/bin/python# -*- coding: utf8 -*-#author:yukangimport pysparkfrom pyspark import SparkContext as scfrom pyspark import SparkConfimport osconf = SparkConf().setAppName('test').setMa...原创 2018-03-16 14:12:32 · 15182 阅读 · 8 评论 -
最全面的Hadoop框架以及整个大数据生态介绍
1. hadoop 生态概况Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。Hadoop的核心是YARN,HDFS和Mapreduce下图是hadoop生态系统,集成spark生态圈。在未来一段时间内,hadoop将于spark共存,hadoop与spark...原创 2018-07-03 19:35:16 · 5376 阅读 · 0 评论