Spark
JeemyJohn
这个作者很懒,什么都没留下…
展开
-
XGB+LR/FM模型设计与实现
原创 2022-03-20 21:50:05 · 975 阅读 · 0 评论 -
Spark RDD API详解
1. RDD简单介绍 RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要处理的数据转换为RDD,然后对RDD进行一系列的变换和操作从而得到结果。本文为第一部分,原创 2017-01-03 21:13:33 · 1054 阅读 · 7 评论 -
SparkContext的parallelize
在一个Spark程序的开始部分,有好多是用sparkContext的parallelize制作RDD的,是ParallelCollectionRDD,创建一个并行集合。例如sc.parallelize(0 until numMappers, numMappers)创建并行集合的一个重要参数,是slices的数目(例子中是numMappers),它指定了将数据集切分为几份。在集群模式中,Spark将会原创 2016-12-27 09:55:48 · 5144 阅读 · 10 评论 -
Spark写ES的遇到的坑
由于项目需要,最近搞Spark Streaming做数据分析,并最终将分析完的数据写入ElasticSearch。我们项目使用的是Spark 2.1.0,而我们公司的ElasticSearch版本使用的是2.1.2。项目过程中遇到了很多坑,浪费了不少时间,故此在这里总结一下,希望大家以后免于趟这些坑以节约时间做一些更有意义的事。由于Maven依赖很长,故此放在最后,请参看: 添加Maven依赖1.原创 2017-04-11 20:31:50 · 14927 阅读 · 10 评论 -
Spark Streaming之妙用foreachRDD和foreachPartition
0. 前言 DStream中的foreachRDD是一个非常强大函数,它允许你把数据发送给外部系统。因为输出操作实际上是允许外部系统消费转换后的数据,它们触发的实际操作是DStream转换。所以要掌握它,对它要有深入了解。下面有一些常用的错误需要理解。经常写数据到外部系统需要创建一个连接的对象(例如根据TCP协议连接到远程的服务器,我们连接外部数据库需要自己的句柄)和发送数据到远程的系统。为此,开原创 2017-12-20 21:24:24 · 10968 阅读 · 1 评论 -
Spark资源调优
0. 概述 在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总原创 2017-12-23 13:24:32 · 1497 阅读 · 0 评论 -
Spark 常见问题解决方案
Spark 常见问题收集,并给出相应的解决方案。分享给大家,希望大家不要走弯路……原创 2017-12-23 14:40:53 · 25486 阅读 · 0 评论 -
Spark问题集锦
使用外部链接对象(如Jedis客户端)在Streaming RDD中发送数据时,一定要使用单例。否则会出现各种Bug。在IDEA中使用maven混合Scala和Java打Jar包时,Java的类要写在Java目录里。如果将Java类定义在scala目录下,会出现 NoClassDefFoundError 异常。持续更新中…… 对机器学习和人工智能感兴趣,请扫码关注微信公众号!原创 2017-12-28 21:36:34 · 637 阅读 · 0 评论