spark
一只土肥圆的猿
我是谁?我在哪?
-- 起来写代码!!!
展开
-
spark优化----资源调优
spark资源调优资源参数参考示例./bin/spark-submit \ --master yarn \ --deploy-mode cluster \ --num-executors 128 \ --executor-memory 27G \ --executor-cores 8 \原创 2017-11-24 16:33:55 · 499 阅读 · 0 评论 -
spark2.0版本RDD、DataFrame、DataSet介绍
1. 相关概念1) RDD:spark中最基本的 弹性分布式数据集,提供了很多api 来操作数据集中的元素2) DataFrame:spark的基于RDD的一种高级抽象,在RDD之上加入了scheme信息,给RDD的元素的每一列提供了 名称和数据类型 的标志;同 时它还提供了更多的api,可以实现类似于sql的操作;但是DataFrame也丢掉了RDD的优点:编译时类型检查和面向对原创 2017-11-24 17:26:17 · 529 阅读 · 0 评论 -
spark--集合操作示例
一、常用操作符(操作符其实也是函数)++ ++[B](that: GenTraversableOnce[B]): List[B] 从列表的尾部添加另外一个列表++: ++:[B >: A, That](that: collection.Traversable[B])(implicit bf: CanBuildFrom[List[A], B, That]): That 在列表的头部添加...翻译 2017-11-27 17:44:20 · 2751 阅读 · 0 评论 -
Java Web提交任务到Spark Spark通过Java Web提交任务
相关软件版本:Spark1.4.1 ,Hadoop2.6,Scala2.10.5 , MyEclipse2014,intelliJ IDEA14,JDK1.8,Tomcat7机器:windows7 (包含JDK1.8,MyEclipse2014,IntelliJ IDEA14,TOmcat7);centos6.6虚拟机(Hadoop伪分布式集群,Spark standAlone集群,JDK1.8)...原创 2018-05-09 09:42:41 · 4217 阅读 · 0 评论 -
集群SSH免密登录
这里以三台服务器为例:master、slave1、slave2给3个机器生成秘钥文件以master为例,执行命令,生成空字符串的秘钥(后面要使用公钥),命令是:1. [root@master .ssh]# ssh-keygen -t rsa -P '' 2. ls /root/.ssh/使用同样的方法为slave1和slave2生成秘钥(命令完全相同,不用做如何修改):1. [r...原创 2018-05-10 14:00:04 · 3791 阅读 · 0 评论 -
kafka 0.10发送、接收大消息解决办法
配置三个地方: Broker: message.max.bytes and replica.fetch.max.bytes Producer: max.request.size Consumer: max.partition.fetch.bytes注意: message.max.bytes必须小于等于replica.fetch.max.bytes...原创 2018-07-02 15:15:21 · 1892 阅读 · 0 评论 -
Spark 2.0系列之SparkSession详解
用Spark的各项功能,用户不但可以使用DataFrame和Dataset的各种API,学习Spark的难度也会大大降低。本文就SparkSession在Spark2 0中的功能和地位加以阐释。Spark2.0中引入了SparkSession的概念,它为用户提供了一个统一的切入点来使用Spark的各项功能,用户不但可以使用DataFrame和Dataset的各种API,学习Spark2的难度也...转载 2018-12-21 14:48:56 · 10043 阅读 · 0 评论