spark_scala
undergrowth
这个作者很懒,什么都没留下…
展开
-
spark 2.2.0学习笔记1之概述
spark 2.2.0学习笔记1之概述参考 https://github.com/databricks/learning-spark Spark快速大数据分析.pdf 概念 基于内存—-快速/通用—-计算 Spark 是一个用来实现快速而通用的集群计算的平台 生态 2009年伯克利分校—-基于mapreduce—-使用scala编写 组件上层组件—-spark sql/spark streaming原创 2017-12-19 20:17:56 · 350 阅读 · 0 评论 -
spark 2.2.0学习笔记2之LocalWordCountDemo
spark 2.2.0学习笔记2之LocalWordCountDemoInfo底层—-集群管理器 local 独立调度器—-Spark自带/默认 Hadoop YARN Apache Mesos 大致源码 org.apache.spark.SparkContext#createTaskScheduler 根据master创建TaskScheduler与SchedulerBackend 创建DAGS原创 2017-12-19 20:27:15 · 536 阅读 · 0 评论 -
scala 2.11.7学习笔记1之概述
scala 2.11.7学习笔记1之概述参考 http://www.runoob.com/scala/scala-file-io.html http://www.jianshu.com/p/e0fc0ab7a9d2 http://blog.csdn.net/fjse51/article/details/52152362 Scala编程中文版(33章全).pdf 概念名词 可扩展语言/是面向对象与函数原创 2017-12-19 20:28:00 · 440 阅读 · 0 评论 -
spark 2.2.0学习笔记3之SparkRDDDemo
spark 2.2.0学习笔记3之SparkRDDDemoInfo键值对RDD(pair RDD)—-用来进行聚合运算/元素为元组 reduceByKey—-通过key 进行操作—-返回新的rdd groupByKey—-进行分组 mapValues/flatMapValues—-应用值 keys/values/sortByKey—-返回key value sort join—-对两个rdd进行内连原创 2017-12-21 22:13:18 · 457 阅读 · 0 评论 -
spark 2.2.0学习笔记4之SparkSQLDemo
spark 2.2.0学习笔记4之SparkSQLDemoInfospark sql—-Spark 用来操作结构化/半结构化数据的程序包 从各种数据源读取数据/支持各种方式的sql查询 hive查询 支持udf(用户自定义函数) SchemaRDD(DataFrame)—-存放Row 对象的RDD,每个Row 对象代表一行记录 SELECT SUM(user.favouritesCount)原创 2017-12-23 00:20:36 · 888 阅读 · 0 评论 -
spark 2.2.0学习笔记5之SparkStreamingWordCountDemo
spark 2.2.0学习笔记5之SparkStreamingWordCountDemoInfospark streaming—-Spark 提供的对实时数据进行流式计算的组件/微批次架构 Spark Streaming 使用离散化流(discretized stream)作为抽象表示,叫作DStream DStream 是随时间推移而收到的数据的序列 一种是转化操作(transformation原创 2017-12-24 22:09:42 · 279 阅读 · 0 评论 -
apache beam 2.6.0学习笔记1之WordCount与源码解析
apache beam 2.6.0学习笔记1之WordCount与源码解析 参考 https://beam.apache.org/get-started/quickstart-java/ https://blog.csdn.net/ffjl1985/article/details/78055152 http://www.infoq.com/cn/articles/apache-beam-...原创 2018-08-17 17:44:59 · 662 阅读 · 0 评论