Spark
文章平均质量分 55
sinat_32176267
我来自红星
展开
-
Spark优化技巧《一》
1.性能调优 1.1 分配更多资源 分配哪些资源? Executor的数量 每个Executor所能分配的CPU数量 每个Executor所能分配的内存量 Driver端分配的内存数量 在哪里分配这些资源? # 在生产环境中,提交spark作业时,用的spark-submit shell脚本,里面调整对应的参数: /usr/local/spark/bin/spark-submit\ --classcn.spark.sparktest.core.WordCountCluster \ --num-ex转载 2020-07-17 10:30:12 · 326 阅读 · 0 评论 -
Spark常用API<Scala>
概览 1.转换 2.动作 1.Transformation 1.1一个RDD进行转换操作 1.2 两个RDD的转换操作 1.3对一个Pair RDD进行转化操作 1.4对两个PairRDD进行转换操作 2.Action 2.1对一个RDD进行行动操作 2.2Pair RDD行动操作 概览 这里只有 Scala 的API,Java 与 Python...原创 2020-04-18 10:17:17 · 455 阅读 · 0 评论 -
Spark常用API<Java>
1.Transformation操作<Java> 主要做的是就是将一个已有的RDD生成另外一个RDD。Transformation具有lazy特性(延迟加载)。Transformation算子的代码不会真正被执行。只有当我们的程序里面遇到一个action算子的时候,代码才会真正的被执行对 1.1一个RDD进行转换操作 举例:对一个数组为{1, 2, 3, 3}的RDD进行基本的R...原创 2020-04-18 10:16:08 · 559 阅读 · 0 评论 -
Spark搭建历程-《sparkStreaming》1
在虚拟机上搭运行spark程序的时候: spark-submit --queue media --class test.SparkStreamingDemo --master yarn-cluster --executor-memory 2g --executor-cores 2 --conf spark.yarn.submit.waitAppCompletion=false ~/s...原创 2018-08-16 11:37:02 · 350 阅读 · 0 评论 -
SparkStreaming 搭建《一》Win10可通用,供参考
是在本地windows配的,具体的如何配置其实要搞的麻烦事很多,多百度吧。 编译环境: Spark2.3.1 scala2.11.8 jdk1.8 hadoop2.6.5 hive1.2.2 kafka1.1.0 Hbase1.4.5 一、新建工程:File-scala-idea 二、指定工程名称,JDK版本,Scala版本。 三、这里你看到的是scala项目,...原创 2018-08-16 14:52:31 · 1562 阅读 · 0 评论 -
SparkStreaming 搭建《二》运行SparkStreaming在集群上提交方式
本教程主要总结SparkStreaming并打包在集群上提交的方式。 需要先开启 $ nc -lk 9999 代码: import org.apache.spark.SparkConf import org.apache.spark.storage.StorageLevel import org.apache.spark.streaming.{Seconds, Streaming...原创 2018-08-16 15:05:11 · 1507 阅读 · 0 评论 -
Spark打包方式SBT
下载sbt地址: sudo mkdir /usr/local/sbt sudo chown -R hadoop /usr/local/sbt # 此处的 hadoop 为你的用户名 cd /usr/local/sbt 安装以后 把sbtlanuncher放在sbt目录下 接着在 /usr/local/sbt 中创建 sbt 脚本(vim ./sbt),添加如下内容: #!/b...转载 2018-08-16 20:21:46 · 1688 阅读 · 0 评论