Spark学习笔记
文章平均质量分 93
-无妄-
本人主要记录的是学习笔记和其他参考,持续学习中。。。
展开
-
--- Spark学习(1)- Spark及其生态圈概述
文章目录Spark概述及特点Spark产生背景Spark发展历史Spark对比HadoopHadoop生态系统Spark生态系统 BDAS(BDAS:Berkeley Data Analytics Stack)Hadoop和Spark生态圈对比:Hadoop对比Spark:MapReduce对比SparkSpark和Hadoop的协作性Hadoop优势Spark的优势Hadoop+Spark(相辅...原创 2018-11-15 19:37:02 · 1147 阅读 · 0 评论 -
--- Spark学习(拾)- Spark Streaming进阶与案例实战
实战之updateStateByKey算子的使用updateStateByKey操作允许您在使用新信息不断更新状态的同时维护任意状态。要使用它,您需要执行两个步骤。1、定义状态——状态可以是任意数据类型。2、定义状态更新函数——用函数指定如何使用以前的状态和输入流中的新值更新状态。在每个批处理中,Spark将为所有现有键应用状态更新功能,而不管它们是否在批处理中有新数据。如果update函...原创 2018-12-06 17:28:38 · 572 阅读 · 1 评论 -
SparkStreaming实战-用户行为日志
需求说明今天到现在为止实战课程的访问量今天到现在为止从搜索引擎引流过来的实战课程访问量用户行为日志介绍用户行为日志:用户每次访问网站时所有的行为数据(访问、浏览、搜索、点击…)用户行为轨迹、流量日志典型的日志来源于Nginx和Ajax日志数据内容:1)访问的系统属性: 操作系统、浏览器等等2)访问特征:点击的url、从哪个url跳转过来的(referer)、页面上的停留时间等...原创 2018-12-19 17:02:06 · 2581 阅读 · 2 评论 -
--- Spark学习(拾壹)- Spark Streaming整合Flume
文章目录Push方式整合之概述Push方式整合之Flume Agent配置开发Push方式整合之Spark Streaming应用开发Push方式整合之本地环境联调Push方式整合之服务器环境联调Pull方式整合之概述(推荐)Pull方式整合之Spark Streaming应用开发Pull方式整合之本地环境联调Pull方式整合之服务器环境联调官方文档http://spark.apache.or...原创 2018-12-07 16:04:56 · 314 阅读 · 0 评论 -
Sparksql实战 - 用户行为日志
用户行为日志概述用户行为日志:用户每次访问网站时所有的行为数据(访问、浏览、搜索、点击…)用户行为轨迹、流量日志典型的日志来源于Nginx和Ajax日志数据内容:1)访问的系统属性: 操作系统、浏览器等等2)访问特征:点击的url、从哪个url跳转过来的(referer)、页面上的停留时间等3)访问信息:session_id、访问ip(访问城市)等比如2013-05-19 13:...原创 2018-12-15 15:56:40 · 6998 阅读 · 1 评论 -
---spark学习 - spark编程模型(各种算子)
文章目录Spark API文档Value类型 Transformation 算子分类Transformation-mapTransformation-mapPartitionsTransformation-flatMapTransformation-flatMapTransformation-unionTransformation-distinctTransformation-filterTran...原创 2019-03-05 15:33:20 · 330 阅读 · 0 评论 -
---Spark学习-shuffle和RDD
Spark ShuffleHashShuffleManager:shuffle write阶段,默认Mapper阶段会为Reducer阶段的每一个Task单独创建一个文件来保存该Task中要使用的数据。(1)map task的计算结果,会根据分区器(default:HashPartitioner)来决定写入到哪一个磁盘小文件中(2)reduce task 会去map端拉取相应的小文件产...原创 2019-03-05 15:41:22 · 1493 阅读 · 0 评论 -
--- Scala编程基础
文章目录Scala是一门怎样的语言,具有哪些优点?Scala语法基础-从Hello World说起Scala值和变量声明Scala常用类型方法的定义和使用函数的定义和使用函数与方法区别Example - 方法计时器循环和高级for循环常见集合使用异常处理类定义类构造函数类继承单例对象函数式编程思想函数式编程思想ExampleScala是一门怎样的语言,具有哪些优点?快速实验快速尝试各种语...原创 2019-03-05 15:53:39 · 250 阅读 · 0 评论 -
spark学习 - Spark体系结构和源代码解析
文章目录Spark简介Spark简介Scala编程基础Spark体系结构和源代码解析Spark编程模型Spark内存模型Spark案例介绍Spark简介Spark简介什么是Spark?Spark是基于内存计算的通用大规模数据处理框架Spark已经融入了Hadoop生态系统,可支持的作业类型和应用场景比MapReduce更为广泛,并且具备了MapReduce所有的高容错性和高伸缩性特点。...原创 2019-02-28 16:33:13 · 831 阅读 · 0 评论 -
spark学习 - 数据倾斜
Examplespark数据倾斜现象单个Executor执行时间久OOMExecutorDriverTimeout数据倾斜原因发现数据倾斜使用sample算子进行抽样使用countByValue对抽样数据进行聚合计算取出前N观察数据倾斜 Solution 1 – 使用reduceByKeygroupByKey转换为reduceByKeyr...原创 2019-03-05 16:10:08 · 200 阅读 · 0 评论 -
--- Spark学习(玖)- Spark Streaming核心概念与编程
文章目录核心概念之StreamingContext核心概念之StreamingContext要初始化一个Spark流程序,必须创建一个StreamingContext对象,它是所有Spark流功能的主要入口点。可以从SparkConf对象创建StreamingContext对象。import org.apache.spark._import org.apache.spark.stream...原创 2018-12-06 15:01:20 · 258 阅读 · 0 评论 -
---scala编程环境IDEA搭建以及各种依赖添加
1、新建一个maven项目;点击next2、项目分组id和项目名称;点击next3、选择自己的maven路径;点击next4、点击finishpom文件<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:sch...原创 2018-12-06 10:54:11 · 4370 阅读 · 1 评论 -
---Spark学习(贰)- Spark SQL概述
文章目录Spark SQL前世今生为什么需要SQLSharkSQL on Hadoop常用框架Spark SQL概述Spark SQL架构Spark SQL愿景写更少的代码代码量和可读性统一访问操作接口强有力的API支持Schema推导Schema MergePartition Discovery执行速度更快SparkSQL愿景之二读取更少的数据SparkSQL愿景之三让查询优化器帮助我们优化执行...原创 2018-11-16 17:01:50 · 309 阅读 · 0 评论 -
--- Spark学习(拾贰)- Spark Streaming整合Kafka
文章目录Spark Streaming整合Kafka的版本选择详解以下是基于spark2.2的测试:Receiver方式整合之概述Receiver方式整合之Kafka测试Receiver方式整合之Spark Streaming应用开发Receiver方式整合之本地环境联调Receiver方式整合之服务器环境联调及Streaming UI讲解Direct方式整合之概述(推荐)Direct方式整合之S...原创 2018-12-07 17:17:37 · 372 阅读 · 0 评论 -
--- Spark学习(柒)- Spark SQL扩展和总结
文章目录Spark SQL使用场景Spark SQL加载数据1) RDD DataFrame/Dataset2) Local Cloud(HDFS/S3)DataFrame与SQL的对比SchemaSaveMode处理复杂的JSON数据SQL的覆盖程度外部数据源Spark SQL使用场景文件中数据的特殊查询(即席查询;即席查询是可以进行特殊的字段查询自定义的查询;普通查询就是别人已...原创 2018-12-05 15:08:37 · 994 阅读 · 1 评论 -
--- Spark学习(拾叁)- Spark Streaming整合Flume&Kafka
文章目录处理流程画图剖析日志产生器开发并结合log4j完成日志的输出使用Flume采集Log4j产生的日志使用KafkaSInk将Flume收集到的数据输出到KafkaSpark Streaming消费Kafka的数据进行统计本地测试和生产环境使用的拓展处理流程画图剖析日志产生器开发并结合log4j完成日志的输出import org.apache.log4j.Logger;/** *...原创 2018-12-08 15:59:48 · 219 阅读 · 0 评论 -
---Spark学习(叁)- 环境搭建
文章目录Spark源码编译1 写在前面的话2 前置准备2.1 Java7的安装2.1.1 下载2.1.2 安装2.2 Maven3.3.9的安装2.2.1 下载2.2.2安装2.3 Spark-2.1.0源码下载3 Spark源码编译Spark环境编译中的问题:Spark环境搭建-待补充Spark Local模式环境搭建Spark Standalone模式环境搭建Spark源码编译1 写在前面...原创 2018-12-03 15:45:29 · 618 阅读 · 0 评论 -
--- Spark学习(肆)- 从Hive平滑过渡到Spark SQL
文章目录SQLContext的使用HiveContext的使用SparkSession的使用spark-shell&amp;amp;amp;spark-sql的使用thriftserver&amp;amp;amp;beeline的使用jdbc方式编程访问SQLContext的使用Spark1.x中Spark SQL的入口点: SQLContextval sc: SparkContext // An existing Spa...原创 2018-12-03 15:46:52 · 400 阅读 · 0 评论 -
--- Spark学习(伍)- DateFrame&Dataset
文章目录DataFrame产生背景DataFrame概述DataFrame和RDD的对比DataFrame基本API操作DataFrame与RDD互操作方式DataFrame API操作案例实战DataSet概述及使用DataFrame产生背景DataFrame它不是Spark SQL提出的,而是早起在R、Pandas语言就已经有了的。Spark RDD API vs MapReduce ...原创 2018-12-03 15:47:48 · 402 阅读 · 0 评论 -
--- Spark学习(陆)- Spark操作外部数据源
产生背景每个Spark应用程序从读取数据开始,到保存数据结束加载和保存数据是不容易的比如大数据场景解析关系型数据库需要用工具如sqoop将数据转到hbase等。解析原始数据也不容易 :text/json/parquet数据直接的转换也麻烦数据集存储在各个存储系统中无法统一拉取和推送用户的需要:方便快速从不同的数据源(json、parquet、rdbms),经过混合处理(jso...原创 2018-12-03 15:48:55 · 1184 阅读 · 0 评论 -
--- Spark学习(捌)- Spark Streaming入门
文章目录spark概念Spark Streaming应用场景Spark Streaming集成Spark生态系统的使用Spark Streaming发展史从词频统计功能着手入门Spark Streamingspark-submit提交spark-shell提交Spark Streaming工作原理(粗粒度)Spark Streaming工作原理(细粒度)spark概念Spark流是核心Spar...原创 2018-12-06 10:23:44 · 699 阅读 · 1 评论 -
--- spark的job在yarn的资源分配
资源现在有6台机器 每台机器16个core 64g的内存资源分配6Node 16core/台 64g/台现可用资源一共96个core 384g ;每台机器预留1core和1g;那么剩下90个core 378g的可用资源分配corecore=5 官方定义超过5会对hdfs吞吐量造成影响也就是说每个executor最多可以同时运行5个core分配executor用剩余的core除以每...原创 2019-06-25 11:52:48 · 534 阅读 · 0 评论