![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
Claroja
这个作者很懒,什么都没留下…
展开
-
Spark TopN
数据格式为:http://python.cn/weihttp://python.cn/weihttp://java.cn/zhanghttp://java.cn/zhangpackage sparkimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object Teach...原创 2019-10-28 22:45:40 · 213 阅读 · 0 评论 -
Scala Array
参数描述def apply( x: T, xs: T* ): Array[T]创建指定对象 T 的数组, T 的值可以是 Unit, Double, Float, Long, Int, Char, Short, Byte, Boolean。def concat[T]( xss: Array[T]* ): Array[T]合并数组def copy( src: An...原创 2019-10-28 22:44:37 · 132 阅读 · 0 评论 -
Scala 字符串
方法描述char charAt(int index)返回指定位置的字符int compareTo(Object o)比较字符串与对象int compareTo(String anotherString)按字典顺序比较两个字符串int compareToIgnoreCase(String str)按字典顺序比较两个字符串,不考虑大小写String ...原创 2019-10-28 22:44:21 · 195 阅读 · 0 评论 -
Spark WordCount
package sparkimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object ScalaWordCount { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppN...原创 2019-10-28 22:44:07 · 88 阅读 · 0 评论 -
Spark
参考:https://www.cnblogs.com/xuliangxing/p/7279662.html原创 2019-10-28 22:43:49 · 145 阅读 · 0 评论 -
Spark 广播变量
占坑原创 2019-10-28 22:43:26 · 87 阅读 · 0 评论 -
Spark RDD Cache & Checkpoint
cache方法,没有生成新的RDD,也没有触发任务执行,只会标记该RDD分区对应的数据(第一次触发Action时)放入到内存checkpint方法,没有生成新的RDD,也是没有触发Action,也是标记以后触发Action时会将数据保存到HDFS中...原创 2019-10-28 22:43:05 · 88 阅读 · 0 评论 -
Spark RDD Action
#spark actionval rdd1 = sc.parallelize(List(1,2,3,4,5), 2) # 2是分区,就是task数量,默认是可用的核数rdd1.saveAsTextFile(“hdfs://node:9000/test”) # 会有三个结果val rdd = sc.textFile(“hdfs://node:9000/wc”)rdd.partitions...原创 2019-10-28 22:42:51 · 110 阅读 · 0 评论 -
Spark RDD Transformation
RDD Transformation特点1.lazy,不存储数据 只记录操作2.生成新的RDDsortByval rdd2 = sc.parallelize(List(5,6,4,7,3,8,2,9,1,10)).map(_*2).sortBy(x=>x,true) # 升序val rdd2 = sc.parallelize(List(5,6,4,7,3,8,2,9,1,10))...原创 2019-10-28 22:42:38 · 152 阅读 · 0 评论 -
Spark Partitioner
挖坑原创 2019-10-28 22:42:22 · 89 阅读 · 0 评论 -
Spark RDD
RDD并不存储数据,会在Driver端转换为Task,下发到Executor分散在多台集群上的数据创建RDD的三种方式1.读取文件:sc.textFile("hdfs://node:9000/wc")2.将Driver端的scala集合转换为RDD:sc.parallelize(arr)3.RDD的Transformation会生成一个新的RDD读取文件1.读取本地文件:val in...原创 2019-10-28 22:39:41 · 113 阅读 · 0 评论 -
spark 安装
cd /usr/local 进入要安装的目录tar -zvxf spark-2.0.2-bin-hadoop2.6.tgz 安装启动spark在sprk/conf/spark-env.sh添加JAVA_HOMEexport JAVA_HOME=/usr/local/jdk1.8.0_221/运行sbin目录下的start-all.sh提交第一个spark应用到集群中运行bin/sp...原创 2019-09-29 22:30:08 · 137 阅读 · 0 评论