大数据实时计算Spark
大数据实时计算Spark
一角残叶
人生如逆旅,我亦是行人
展开
-
大数据实时计算Spark学习笔记(1)—— Spak单词统计
1 启动 Spark-shell[hadoop@node1 ~]$ spark-shellUsing Spark's default log4j profile: org/apache/spark/log4j-defaults.propertiesSetting default log level to "WARN".To adjust logging level use sc.setL...原创 2018-12-27 08:19:10 · 432 阅读 · 0 评论 -
大数据实时计算Spark学习笔记(10)—— Spar SQL(2) -JDBC方式操作表
1 Spark SQL 的 JDBC 方式POM 文件添加依赖 <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.38</versio...原创 2018-12-29 14:39:35 · 337 阅读 · 0 评论 -
大数据实时计算Spark学习笔记(9)—— Spar SQL(1) 读取 json 文件
1 Spark SQL编程方式:(1)SQL;(2) DataFrame APIscala&gt; case class Customer(id:Int,name:String,age:Int)defined class Customerscala&gt; val arr = Array("1,Mike,20","2,Mary,19","3,Jerry,23&quo原创 2018-12-29 10:16:18 · 1165 阅读 · 0 评论 -
大数据实时计算Spark学习笔记(8)—— RDD 持久化
1 RDD 持久化跨操作进行RDD的内存式存储;持久化 RDD时,节点上的每个分区都会保存到内存中;缓存技术是迭代计算和交互式查询的重要工具;使用 persist() 和 cache() 进行 RDD 的持久化,cache() 是 perisit() 的一种;action 第一次操作时会发生 persist()spark的 cache是容错的,如果RDD的任何一个分区丢失了,都可以...原创 2018-12-28 19:25:50 · 635 阅读 · 0 评论 -
大数据实时计算Spark学习笔记(7)—— RDD 数据倾斜处理
1 处理数据倾斜在 reduceByKey 之前先进行随机分区package com.bigdataSpark.cnimport org.apache.spark.{SparkConf, SparkContext}import scala.util.Randomobject DataLeanDemo { def main(args: Array[String]): Unit ...原创 2018-12-28 12:19:53 · 209 阅读 · 0 评论 -
大数据实时计算Spark学习笔记(6)—— RDD的action
1 RDD 的 action1.1 collect收集 RDD 的元素形成数组1.2 count统计 RDD 元素的个数1.3 reduce聚合,返回一个值1.4 first取出第一个元素1.5 take(n)1.6 saveAsTextFile...原创 2018-12-28 08:35:40 · 168 阅读 · 0 评论 -
大数据实时计算Spark学习笔记(5)—— RDD的 transformation
1 RDD的转换1.1 groupByKey(k,v) => (k,Iterable)package com.bigdataSpark.cnimport org.apache.spark.{SparkConf, SparkContext}object GroupByKeyDemo { def main(args: Array[String]): Unit = {...原创 2018-12-27 21:44:15 · 208 阅读 · 0 评论 -
大数据实时计算Spark学习笔记(4)—— Spak核心 API 模块介绍
1 Spark 介绍1.1 Spark 特点速度:在内存中存储中间结果支持多种语言内置 80+ 的算子高级分析:MR,SQL/ Streaming/Mlib/Graph1.2 Spark 模块core : 通用执行引擎,提供内存计算和对外部数据集的引用;SQL : 构建在 core 之上,引入抽象的 schemaRDD,提供了结构化和半结构化的支持;streaming: 小...原创 2018-12-27 17:08:27 · 423 阅读 · 0 评论 -
大数据实时计算Spark学习笔记(3)—— Spak Maven 编译插件
1 Scala Maven 编译插件<build> <sourceDirectory>src/main/java</sourceDirectory> <plugins> <plugin> <groupId>org.apache.maven...原创 2018-12-27 10:12:38 · 197 阅读 · 0 评论 -
大数据实时计算Spark学习笔记(2)—— Spak 集群搭建
1 Spark 集群模式local: spark-shell --master local,默认的standlone1.复制 spark 目录到其他主机2.配置其他主机的环境变量3.配置 master 节点的 slaves 文件4.启动 spark集群,start-all.sh5.WebUI: 8080YARN 模式mesos 模式2 Spark集群完全分布式 sta...原创 2018-12-27 09:42:11 · 332 阅读 · 0 评论 -
大数据实时计算Spark学习笔记(11)—— Spark Streaming
1 Spark Streamingspark core 的扩展,针对实时数据处理,具有可扩展、高吞吐、容错;内部,spark 接受实时数据流,分成 batch 进行处理,最终在每个 batch 产生结果;1.1 discretized stream or DStream通过kafka,flume 等输入产生,或者通过其他的 DStream 进行高阶变换产生;在内部,DStream ...原创 2018-12-31 08:59:58 · 304 阅读 · 0 评论