Spark和Scala
mark_to_win
http://www.mark-to-win.com 安卓,java,jquery,ios,spring,技术副总,导师,领导项目架构,微信号: MarkToWin_China, qq: 2115860679,
展开
-
Windows32或64位下载安装配置Spark
Windows 32或64位下载安装配置Spark:1)下载地址:http://spark.apache.org/downloads.html马克-to-win @ 马克java社区:选择需要下载的Spark版本,我选的是当前最新的版本2.2.0。因为我已经安装了Hadoop 2.7.4版本的,所以我选择对应的Pre-built for Hadoop 2.7 and later。注意网站上说sca...原创 2019-05-24 16:27:30 · 206 阅读 · 0 评论 -
Spark的lazy特性有什么意义呢?
马克-to-win @ 马克java社区:Spark通过lazy特性有什么意义呢? Spark通过lazy特性,可以进行底层的spark应用执行的优化。在生活中,就像三思而后行。谋定而后动。更多请看下节:https://blog.csdn.net/qq_44596980/article/details/93309261...原创 2019-05-31 15:44:43 · 789 阅读 · 0 评论 -
请给出一个Scala RDD的HelloWorld例子
马克-to-win @ 马克java社区:package comimport org.apache.spark.rdd.RDDimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextobject TestRDD { def main(args: Array[String]): Unit = { ...原创 2019-05-31 15:49:26 · 157 阅读 · 0 评论 -
Scala当中parallelize并行化的用法
马克-to-win:parallelize并行化集合是根据一个已经存在的Scala集合创建的RDD对象。集合的里面的元素将会被拷贝进入新创建出的一个可被并行操作的分布式数据集。例如:val rdd03 = sc.parallelize(List(1, 4, 3, 7, 5)) 根据系统环境来进行切分多个slice,每一个slice启动一个Task来进行处理。val rdd03 = sc.par...原创 2019-05-31 16:15:28 · 4750 阅读 · 0 评论 -
Spark Scala当中reduce的用法和例子
马克-to-win @ 马克java社区:reduce将RDD中元素前两个传给输入函数,产生一个新的return值,将新产生的return值与RDD中下一个元素(即第三个元素)组成两个元素,再被传给输入函数,这样递归运作,直到最后只有一个值为止。*/ val rdd07 = sc.parallelize(1 to 10) val sum = rdd07.reduce((x, y) ...原创 2019-05-31 18:34:53 · 3170 阅读 · 0 评论 -
Spark Scala当中reduceByKey的用法
/*reduceByKey(function)reduceByKey就是对元素为KV对的RDD中Key相同的元素的Value进行function的reduce操作(如前所述),因此,Key相同的多个元素的值被reduce为一个值,然后与原RDD中的Key组成一个新的KV对。reduceByKey(_+_)是reduceByKey((x,y) => x+y)的一个 简洁的形式*/...原创 2019-06-01 09:56:52 · 2417 阅读 · 0 评论 -
Spark Scala当中reduceByKey(_+_) reduceByKey((x,y) => x+y)的用法
马克-to-win@ 马克java社区:reduceByKey(_+_)是reduceByKey((x,y) => x+y)的一个 简洁的形式*/ val rdd08 = sc.parallelize(List((1, 1), (1, 4),(1, 3), (3, 7), (3, 5))) val rdd08_1 = rdd08.reduceByKey((x, y) =...原创 2019-06-01 09:55:29 · 2211 阅读 · 0 评论 -
System memory 259522560 must be at least 4.718592
/*没有下面的话,会报一个错误,java.lang.IllegalArgumentException: System memory 259522560 must be at least 4.718592E8(470M). Please use a larger heap size.这是memory不够,导致无法启动SparkContext*/ conf.set("s...原创 2019-06-01 09:36:34 · 289 阅读 · 0 评论 -
Win7 Eclipse 搭建spark java1.8环境:WordCount helloworld例子
Win7 Eclipse 搭建spark java1.8环境:WordCount helloworld例子马克-to-win @ 马克java社区:在eclipse oxygen上创建一个普通的java项目,然后把spark-assembly-1.6.1-hadoop2.6.0.jar这个包导进工程就ok了。只要启动start-dfs,下面的程序就可以运行了。package com;import ...原创 2019-06-01 09:28:04 · 302 阅读 · 0 评论 -
Win7 Eclipse 搭建spark java1.8编译环境,JavaRDD的helloworld例子
Win7 Eclipse 搭建spark java1.8编译环境,JavaRDD的helloworld例子:马克-to-win @ 马克java社区:在eclipse oxygen上创建一个普通的java项目,然后把spark-assembly-1.6.1-hadoop2.6.0.jar这个包导进工程就ok了。package com;import java.util.Arrays;import j...原创 2019-06-01 09:27:21 · 299 阅读 · 0 评论 -
Windows Eclipse Scala编写WordCount程序
Windows Eclipse Scala编写WordCount程序:1)马克-to-win @ 马克java社区:无需启动hadoop,因为我们用的是本地文件。先像原来一样,做一个普通的scala项目和Scala Object。但这里一定注意版本是2.10.6,因为缺省的不好使。改的方法是:右击项目/properties/Scala Compiler.2)像spark的java版WordCoun...原创 2019-06-01 09:19:14 · 224 阅读 · 0 评论 -
Spark和Scala当中的collect方法的用法和例子
/*马克-to-win @ 马克java社区:collect: 收集一个弹性分布式数据集的所有元素到一个数组中,这样便于我们观察,毕竟分布式数据集比较抽象。Spark的collect方法,是Action类型的一个算子,会从远程集群拉取数据到driver端。最后,将大量数据汇集到一个driver节点上,将数据用数组存放,占用了jvm堆内存,非常用意造成内存溢出,只用作小型数据的观察。*/...原创 2019-06-01 09:55:14 · 6684 阅读 · 0 评论 -
Scala当中什么是Transformation和 Action,以及它们俩的区别是什么?
马克-to-win @ 马克java社区:一个完整的RDD任务由两部分组成:Transformation和 Action。Transformation用于对RDD的创建,还可以把老的RDD通过Transformation来生成新的RDD。例如,map就 是一种transformation操作,它用于将已有RDD的每个元素传入一个自定义的函数,并得到一个新的元素,然后将所有的新元素组成一个新的 RD...原创 2019-05-31 15:42:30 · 612 阅读 · 0 评论 -
Scala当中什么是RDD(Resilient Distributed Datasets)弹性分布式数据集
马克-to-win@马克Java社区:RDD(Resilient Distributed Datasets)弹性分布式数据集。你不好理解的话,可以把RDD就可以看成是一个简单的"动态数组"(比如ArrayList),对其操作,也只需要 调用它的方法而已,和java中的ArrayList一样。但它与一般动态数组的区别在于:RDD是分布的。弹性是指的是数据自动在内存和磁盘切换, task如果失败会进行...原创 2019-05-31 15:31:51 · 256 阅读 · 0 评论 -
Windows32位或64位下载安装配置Scala
Windows 32位或64位下载安装配置Scala:1)马克-to-win @ 马克java社区:下载地址:http://www.scala-lang.org/download/,看我的spark那节,要求scala是2.11以上,我就下载:scala-2.11.8.msi。2)安装:双击scala-2.11.8.msi安装包,启动安装程序,全部默认安装。3)配置:a)在系统变量中新增SCALA...原创 2019-05-24 16:28:35 · 268 阅读 · 0 评论 -
Windows Eclipse Scala的入门HelloWorld
Windows Eclipse Scala的入门HelloWorld马克-to-win @ 马克java社区:有关带scala版本的eclipse4.7的下载, 你可以直接去:http://scala-ide.org/download/sdk.html下载下来后是:scala-SDK-4.7.0-vfinal-2.12-win32.win32.x86_64.zip,解压,展开。其实就是一个带着s...原创 2019-05-30 11:43:04 · 194 阅读 · 0 评论 -
有关带scala版本的eclipse4.7的下载
马克-to-win @ 马克java社区:有关带scala版本的eclipse4.7的下载, 你可以直接去:http://scala-ide.org/download/sdk.html下载下来后是:scala-SDK-4.7.0-vfinal-2.12-win32.win32.x86_64.zip,解压,展开。其实就是一个带着scala版本的64位的eclipse47(oxygen)。进入目录中...原创 2019-05-30 11:45:01 · 215 阅读 · 0 评论 -
Windows Eclipse Scala第一次启动时各种错误
Windows Eclipse Scala第一次启动时各种错误:1)马克-to-win@ 马克java社区:防盗版实名手机尾号:73203 Could not reserve enough space for object heap解决方法:下面的缩写中:一个是memory max(Xmx), 一个是memory start (Xms)。在eclipse.ini中这样来设置解决:-Dosgi.r...原创 2019-05-30 16:15:39 · 218 阅读 · 0 评论 -
eclipse scala Could not reserve enough space for object heap
1)马克-to-win@ 马克java社区:防盗版实名手机尾号:73203 Could not reserve enough space for object heap解决方法:下面的缩写中:一个是memory max(Xmx), 一个是memory start (Xms)。在eclipse.ini中这样来设置解决:-Dosgi.requiredJavaVersion=1.8-Xmx30...原创 2019-05-30 11:52:03 · 186 阅读 · 0 评论 -
eclipse scala Java was started but returned exit code=13
马克-to-win @ 马克java社区:之后再重新启动Eclipse,又报错:Java was started but returned exit code=13原因:path中配置了:C:\ProgramData\Oracle\Java\javapath路径,之前安装什么别的软件的时候改变了它,于是删除,问题解决了。更多请看下节:https://blog.csdn.net/qq_445...原创 2019-05-30 11:56:23 · 155 阅读 · 0 评论 -
eclipse scala failed to load the jni shared library
3)马克-to-win@ 马克java社区:之后再重新启动Eclipse,又报错:“failed to load the jni shared library”这是由于刚下载的scala eclipse ide是64位,而我们过去的java home设置32位的jdk,下载一个64位的jdk,改一下就可以了。32位java home:C:\Progra~2\Java\jdk1.8.0_144...原创 2019-05-30 11:59:34 · 137 阅读 · 0 评论 -
如何判断你的windows系统是32位还是64位?
马克-to-win@ 马克java社区:如 何判断你的windows系统是32位还是64位? java -version时,如果没有64就是32位的。eclipse.ini中如果没有64,就是32位的。但是我们的ini文件里面有这句话: plugins/org.eclipse.equinox.launcher.win32.win32.x86_64_1.1.500.v20170531-1133解决...原创 2019-05-30 12:03:11 · 961 阅读 · 0 评论 -
windows scala helloworld例子详解
马克-to-win@ 马克java社区:windows scala helloworld例子详解: 在操作系统中,我们的Test3.scala会生成Test3.class,然后class文件被虚拟机加载并执行, 这一点和java是一样的。1 马克-to-win@ 马克java社区: 以object关键字修饰一个类名,这种语法叫做孤立对象,这个对象是单例的。 相当于将单例类和单例对象同时定义。...原创 2019-05-30 12:04:57 · 168 阅读 · 0 评论 -
Scala当中mkString()方法的使用
1)mkString()方法的使用:马克-to-win @ 马克java社区:防盗版实名手机尾号:73203package comobject Test{ def main(args: Array[String]): Unit = { var name : String = "Hello mark-to-win" var tmp=""/*def mkString(sep: S...原创 2019-05-31 15:19:56 · 2725 阅读 · 0 评论 -
Scala 孤立对象和单例对象方法体的用法和例子
1 马克-to-win@ 马克java社区: 以object关键字修饰一个类名,这种语法叫做孤立对象,这个对象是单例的。 相当于将单例类和单例对象同时定义。相当于java中的单例,即在内存中只会存在一个Test3实例。创建一个Scala Object,它相当于java的static, 不要用Scala-class去建工程,不然就不能建main函数了。2 方法声明以def开头, 然后是方法名...原创 2019-05-31 15:20:02 · 219 阅读 · 0 评论 -
Win7 Eclipse 搭建spark java1.8(lambda)环境:WordCount helloworld例子
Win7 Eclipse 搭建spark java1.8(lambda)环境:WordCount helloworld例子马克-to-win @ 马克java社区:lambda表达式是java8给我们带来的一个重量的新特性,借用lambda表达式可以让我们的程序设计更加简洁。package com;import org.apache.spark.SparkConf;import org.a...原创 2019-06-01 09:36:52 · 185 阅读 · 0 评论