Spark
Spark
Jenrey
这个作者很懒,什么都没留下…
展开
-
MongoDB + Spark: 完整的大数据解决方案
Spark介绍按照官方的定义,Spark 是一个通用,快速,适用于大规模数据的处理引擎。通用性:我们可以使用Spark SQL来执行常规分析, Spark Streaming 来流数据处理, 以及用Mlib来执行机器学习等。Java,python,scala及R语言的支持也是其通用性的表现之一。 快速: 这个可能是Spark成功的最初原因之一,主要归功于其基于内存的运算方式。当需要处理的...原创 2018-10-27 15:36:05 · 1054 阅读 · 0 评论 -
Spark中的cache和persist
Spark中cache和persist的作用以及存储级别前言Spark开发高性能的大数据计算作业并不是那么简单。如果没有对Spark作业进行合理的调优,Spark作业的执行速度可能会很慢,这样就完全体现不出Spark作为一种快速大数据计算引擎的优势来。因此,想要用好Spark,就必须对其进行合理的性能优化。有一些代码开发基本的原则,避免创建重复的RDD,尽可能复用同一个RDD,如下,我们可以直接用...原创 2018-07-12 09:46:02 · 520 阅读 · 0 评论 -
SparkGraphX的简单讲解
1.SparkGraphX的官方文档连接http://spark.apachecn.org/docs/cn/2.2.0/graphx-programming-guide.html原创 2018-05-30 17:38:33 · 4421 阅读 · 0 评论 -
Python开发Spark
案例1:WordCount程序from pyspark import *import osif __name__ == '__main__': os.environ['SPARK_HOME'] = 'G:\myProgram\spark-2.3.0-bin-hadoop2.7' # Create SparkConf conf = SparkConf() \ ...原创 2018-05-17 20:46:46 · 361 阅读 · 0 评论 -
SparkStreaming的案例及应用
1.案例:通过网络监听端口的方式,实现SparkStreaming的单词计数功能创建Maven项目:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchem...原创 2018-05-11 22:23:06 · 4884 阅读 · 2 评论 -
spark dataframe操作集锦(提取前几行,合并,入库等)
spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选、合并,重新入库。首先加载数据集,然后在提取数据集的前几行过程中,才找到limit的函数。而合并就用到union函数,重新入库,就是registerTemple注册成表,再进行写入到HIVE中。不得不赞叹dataframe的强大。具体示...原创 2018-05-04 22:33:53 · 2759 阅读 · 0 评论 -
spark调优
import org.apache.spark.{SparkConf, SparkContext}/** * 解决数据倾斜的方法之一,加盐 */object AggWordCount { def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local").setAppN...原创 2018-04-24 22:27:12 · 298 阅读 · 0 评论 -
Spark-core算子大全(java,scala,python)
/** * Java版本导包相关 */import org.apache.spark.Partitioner;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache....原创 2018-04-24 19:56:55 · 1725 阅读 · 2 评论 -
Spark-core开发笔记
import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object WordCount { /** * 单词计数程序-Scala版本 */ def main(args: Array[String]): Unit = { /** * spark-s...原创 2018-04-22 14:52:24 · 759 阅读 · 0 评论 -
Spark-2.3各种集群的安装
准备安排:Spark的HASpark会安装在hadoop02,hadoop03,hadoop04,hadoop05上面注意需要先启动hdfs(必须),在启动yarn(非必须可以使standalone模式)1.登陆:http://spark.apache.org/downloads.html 下载符合自己的Spark安装包2.上传到hadoop02节点3.解压安...原创 2018-04-20 23:39:11 · 950 阅读 · 0 评论