![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 69
freefish_yzx
这个作者很懒,什么都没留下…
展开
-
Spark RDD算子【四】
Spark RDD常用算子原创 2017-08-24 11:16:22 · 501 阅读 · 0 评论 -
Spark Streaming基础学习【二】数值累加
package day05.dimport org.apache.spark.{HashPartitioner, SparkConf, SparkContext}import org.apache.spark.streaming.{Seconds, StreamingContext}object StateFulWordCount { //分好组的数据 val update原创 2017-08-28 18:33:40 · 1110 阅读 · 0 评论 -
Spark Streaming基础学习【一】WordCount
Spark Streaming基础学习【一】WordCount原创 2017-08-28 14:10:48 · 1025 阅读 · 0 评论 -
Spark RDD算子【三】combineByKey
createCombiner: combineByKey() 会遍历分区中的所有元素,因此每个元素的键要么还没有遇到过,要么就 和之前的某个元素的键相同。如果这是一个新的元素, combineByKey() 会使用一个叫作 createCombiner() 的函数来创建 那个键对应的累加器的初始值(有时候能起到类型转换的功能)mergeValue: 如果这是一个在处理当前分区之前已经遇到的键, 它会使用 mergeValue() 方法将该键的累加器对应的当前值与这个新的值进行合并mergeCombi原创 2017-08-23 09:12:36 · 357 阅读 · 0 评论 -
Spark RDD算子【二】coalesce 和 repartition
Spark RDD算子【二】coalesce 和 repartition原创 2017-08-23 19:54:39 · 529 阅读 · 0 评论 -
Spark 本地模式
本地模式极大简化了我们的测试步骤其实很简单,如下:package wordcountimport org.apache.spark.{SparkConf, SparkContext}object ForeachDemo { def main(args: Array[String]): Unit = { /*local[2]表示启动本地二个进程,local一个进程*/原创 2017-08-23 23:12:00 · 1320 阅读 · 0 评论 -
Spark SQL基础学习【三】以json的方式存储
我们可以把查询的结果以json方式存储原创 2017-08-27 20:10:37 · 722 阅读 · 0 评论 -
Spark SQL基础学习【二】以编程方式执行Spark SQL查询
Spark SQL基础学习【二】以编程方式执行Spark SQL查询原创 2017-08-27 18:55:16 · 743 阅读 · 0 评论 -
Spark SQL 基础学习 【一】命令行操作DataFrame
Spark SQL 命令行操作DataFrame原创 2017-08-27 16:20:26 · 1140 阅读 · 0 评论 -
spark 命令行启动
1.start-dfs.sh 2./home/hadoop/apps/spark-1.6.1-bin-hadoop2.6/sbin/start-all.sh 3./home/hadoop/apps/spark-1.6.1-bin-hadoop2.6/bin/spark-shell --master spark://hadoop01:7077 --executor-memory 1g原创 2017-08-27 15:01:10 · 1799 阅读 · 0 评论 -
Spark stages和依赖的划分
1.1. RDD的依赖关系RDD和它依赖的父RDD(s)的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency)。1.1.1. 窄依赖窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用总结:窄依赖我们形象的比喻为独生子女 即可以是一对一多对一1.1.2. 宽依赖原创 2017-08-27 12:43:25 · 438 阅读 · 0 评论 -
Spark cache和checkpoint
本文阐述了Spark中几种数据持久化方法Cache/Persist/Checkpoint的用法以及区别和联系,对于计算链条过长或者数据量较大的Spark任务有指导意义。原文来自:https://github.com/JerryLead/SparkInternals/blob/master/markdown/6-CacheAndCheckpoint.md 作为区原创 2017-08-26 20:23:49 · 1102 阅读 · 0 评论 -
Spark WordCount
1.例子import org.apache.spark.{SparkConf, SparkContext}object WordCount { def main(args: Array[String]) { //非常重要,是通向Spark集群的入口 val conf = new SparkConf().setAppName("WC") val sc = new原创 2017-08-26 09:13:55 · 271 阅读 · 0 评论 -
Spark 操作数据库API
import java.sql.{Connection, Date, DriverManager, PreparedStatement}import org.apache.spark.{SparkConf, SparkContext}object IPLocation { val data2MySQL = (iterator: Iterator[(String, Int)]) =>原创 2017-08-25 17:10:43 · 317 阅读 · 0 评论 -
Spark 自定义排序
Spark 自定义排序原创 2017-08-25 14:04:27 · 297 阅读 · 0 评论 -
Spark Partitioner自定义分区
package day02import java.net.URLimport org.apache.spark.{HashPartitioner, Partitioner, SparkConf, SparkContext}import scala.collection.mutableobject UserD_Partitioner { def main(args: Arr原创 2017-08-24 21:51:45 · 757 阅读 · 0 评论 -
Spark【基础篇】Spark2.2.0集群搭建
Spark1.6.1集群搭建原创 2017-08-21 16:38:45 · 644 阅读 · 0 评论