Scala
二哥不像程序员
公众号:数据山谷
展开
-
Scala入门篇
输入输出import scala.io._println("请输入:")val line = StdIn.readLine()println("输出的是:"+line)文件的写操作直接调用Java中的I/O类(java.io.file)在当前目录下创建文件test.txt,并在文件中添加内容 Scala如下:val writer = new PrintWriter(new...原创 2018-12-05 12:02:38 · 222 阅读 · 0 评论 -
Spark-编程进阶(Scala版)
累加器累加器提供了将工作节点中的值聚合到驱动器程序中的简单语法。累加器的一个常见用法是在调测时对作业执行过程中的时间进行计数。例:累加空行val sc = new SparkContext()val file = sc.textFile("file.txt")val blankLines = sc.accumulator(0)//创建Accumulator[Int]并初始化为0...原创 2018-12-19 15:01:50 · 869 阅读 · 0 评论 -
Spark RDD编程基础(Scala版)
RDD :弹性分布式数据集(分布式的元素集合)Spark中,对数据的所有操作不外乎创建RDD,转化已有的RDD以及调用RDD操作进行求值,Spark会自动将RDD中的数据分发到集群上,并将操作并行化执行。1、创建RDDSpark有两种创建RDD的方式,一种是读取外部数据集,一种是在驱动器中对一个集合进行并行化。最简单的创建RDD的方法就是讲程序中已有的一个集合传给SparkCont...原创 2018-12-13 18:44:34 · 4067 阅读 · 0 评论 -
Spark-数据读取与保存(Scala版)
文件格式Spark对文件的读取和保存方式都很简单,会根据文件的扩展名选择对应的处理方式Spark支持的一些常见格式 格式名称 结构化 备注 文本文件 否 普通的文本文件,每行一条记录 JSON 半结构化 常见的基于文本的格式,半结构化,大多数库都要求每行一条记录 CSV 是 非常常见的基于文本的格式,通常在电子表格应用中使用 ...原创 2018-12-18 18:21:16 · 6950 阅读 · 0 评论