spark
文章平均质量分 97
forever428
这个作者很懒,什么都没留下…
展开
-
spark05--shuffle过程,算子,调优,checkpoint,spark任务管理器,JDBCRDD,自定义排序
shuffle发生shuffle的算子shuffle调优设置参数两种方式写到spark-env.sh中在程序中使用set设置属性名称默认值属性说明spark.reducer.maxSizeInFlight48mreduce task的buffer缓冲,代表了每个reduce task每次能够拉取的map side数据最大大小,如果内存充足,可以考虑加大,从...原创 2019-01-05 20:36:03 · 554 阅读 · 0 评论 -
spark02--RDD概念,属性,类型,32个常用算子,创建,reduceByKey和groupByKey的区别
Java版本的Wordcountpackage Day01;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkCo...原创 2019-01-02 19:06:01 · 534 阅读 · 0 评论 -
spark06--累加器,spark2.0变化,sparkSQL,spark_on_hive,DSL和SQL
数值累加Accumulatorimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/* * @Description: 用foreach或map无法实现对Driver端的某个变量做分布式累加的过程 * ClassName AccumulatorDemo1 * @Au...原创 2019-01-07 19:32:33 · 527 阅读 · 1 评论 -
spark07--typed练习, 自定义udf,udaf,udaf实现Wordcount,kafka基本概念和集群部署
数据准备employee.json{"name": "Leo", "age": 25, "depId": 1, "gender": "原创 2019-01-08 21:53:28 · 283 阅读 · 0 评论 -
spark10--资源调度模式, yarn的任务调度流程
资源调度模式Spark runs on Hadoop, Apache Mesos, Kubernetes, standalone, or in the cloud.local 模式(本地模式)standalone 模式spark-on-yarn 模式mesos模式deckercloud…用哪种资源调度模式比较好?需要通过公司需求和运行速度来综合 衡量哪种资源调度模...原创 2019-01-19 21:10:34 · 656 阅读 · 0 评论 -
spark11--redis介绍,安装,集群搭建,命令操作
redis 介绍什么是NoSql为了解决高并发、高可扩展、高可用、大数据存储问题而产生的数据库解决方案,就是NoSql数据库。NoSQL,泛指非关系型的数据库,NoSQL即Not-Only SQL,它可以作为关系型数据库的良好补充。但是它不能替代关系型数据库,而且它是存储在内存中,所以它的访问速度很快。Nosql的数据库分类键值(Key-Value)存储数据库相关产品: Tokyo...原创 2019-01-19 21:11:18 · 1348 阅读 · 0 评论 -
spark12--ElasticSearch安装, 插件, curl操作, Java操作
es提供了两种api, restful接口风格的api和java api原创 2019-01-20 14:44:42 · 327 阅读 · 0 评论 -
spark13--logstash安装与操作, 数据采集流程, 项目流程
一 logstash1.1 flume和logstash的区别logstashflume输入源inputsource中间处理filterchannel输出源outputsinklogstash优点: 轻量级, 配置以及安装简单, 可以和es无缝结合, 有断电续传的功能, filter可以直接对数据进行清洗, 将不需要的数据过滤掉减少网络之间的...原创 2019-01-20 14:45:26 · 363 阅读 · 0 评论 -
spark14--游戏项目,面试中的集群问题
一 项目1.1 面试中需要掌握的项目流程项目描述项目实现后能够分析出来的维度, 能够让决策者有哪方面的把控技术架构. 该项目中用到的技术, 从以下几个方面进行描述数据的生成数据的采集数据的清洗源数据的存储需求分析结果的存储需求的理解和实现思路项目中分析的维度. 例如有用户维度, 地域维度, 浏览器维度等负责过哪些需求. 参与过哪些工作(包括实现需求...原创 2019-01-20 14:46:17 · 1014 阅读 · 0 评论 -
spark09--Streaming对接kafka,Transformations和outputOperations,Receiver和Direct,Direct存储offset
文章目录使用Streaming对接kafkaDStream相关操作Transformations on DStreams特殊的特殊的Transformations实现历史批次累使用transform实现Wordcount窗口操作.Output Operations on DStreams使用Streaming对接kafkaimport org.apache.spark.{HashPartiti...原创 2019-01-10 19:31:51 · 426 阅读 · 0 评论 -
scala02--方法,函数,集合,数组,元组,列表,映射,Iterable
文章目录一 方法和函数方法的定义函数的定义匿名函数的定义和使用高阶函数的定义和使用函数作为参数函数作为返回值二 数组定长数组定长数组的定义定长数组的操作变长数组变长数组的定义变长数组的操作遍历数组数组转换数组常用算法三 映射map构造值可变映射获取和修改映射中的值构建值不可变映射对比可变Map与不可变Map操作迭代映射数据四 元组Tuple创建元组创建访问元组元组遍历操作五 列表List不可变Li...原创 2018-12-25 20:18:05 · 333 阅读 · 0 评论 -
scala03--Lazy,并行,类,伴生,特质,抽象,修饰,匹配,样例
Lazy关键字添加到变量之前, 做到延迟加载, 只有调用的时候才会执行计算类似于单例中的懒汉模式–> 不调用方法之前对象是不存在的构造方法私有化创建一个静态私有变量数据类型是当前类的数据类型且不进行初始化提供一个公有静态的获取当前对象的方法进行判断, 若当前对象没有被创建, 创建对象, 否则返回object LazyDemo extends App { def init...原创 2018-12-26 16:52:11 · 267 阅读 · 0 评论 -
scala04--Actor,高阶函数,闭包,柯里化,隐式转换,Option
Option类型Option类型用来表示可能有值, 也可能没有值, 有两个子类None—>无值Some—>有值class OptionDemo { def main(args: Array[String]): Unit = { //option中的参数相当于是一个元组, val op: Option[(String, Int, Boolean)] = ...原创 2018-12-27 19:51:00 · 261 阅读 · 0 评论 -
spark03--textFile分区算法,常用算子使用,启动,任务提交流程, 基站案例
文章目录一 textFile分区算法二 常用算子使用2.1 map mapPartitions2.2 mapPartitionsWithIndex2.3 aggregate2.4 aggregateByKey2.5 combineByKey2.6 countByKey** 和**countByValue2.7 filterByRange2.8 flatMapValues2.9 foldByKey2...原创 2019-01-03 20:26:10 · 848 阅读 · 0 评论 -
scala01--scala简介,安装,数据类型,运算符,控制流
文章目录一 了解ScalaScala特点二 什么是Scala?编程范式函数式编程特点三 Scala三大目标目标1:熟练的使用scala编写spark程序目标2:动手编写一个简易spark通信框架目标3: 可以阅读spark原码四 Scala安装Windows安装Linux安装五 scala中的解释器六 编写第一个scala程序七 IDEA的配置安装scala插件创建scala项目八 scala基础...原创 2018-12-24 20:25:04 · 269 阅读 · 0 评论 -
scala05--泛型,AKKA通信模拟
泛型scala中的泛型可以作用在类, 方法, 函数中, 泛型本身占位符是没有任何意义的. 例如: scala中的泛型[T], 本身没有任何意义, 只有当传入参数的时候, 当前的占位符才会有真正的意义, T可以当做Any, 什么都可以接受在指定泛型的时候可以对泛型进行范围界定, 而不是让其随意传入一个类型, 而是传入指定类型, 这种方式就是scala中的[界定] (边界)Java中对泛型进行...原创 2018-12-30 21:19:29 · 246 阅读 · 0 评论 -
spark01--spark环境搭建,程序执行,spark-shell,Wordcount
Spark的运行模式Local本地模式用于测试环境, 在eclipse或IDEA中Standalone是spark自带的一个调度系统,它支持完全分布式YARN 将spark使用YARN的资源调度来进行执行Mesos 也是一种资源调度, 用的人较少spark2.2.0 伪分布式搭建基本设置:时间同步, 免密登录, 安装JDK1.8上传spark2.2.0 的压缩包到指定的集...原创 2018-12-30 22:44:48 · 506 阅读 · 0 评论 -
spark04--算子总结,RDD类型,宽窄依赖,学科访问量统计,缓存,自定义分区,DAG,stage,执行任务时对象创建和序列化
文章目录算子总结map和mapPartitions的区别map和foreach的区别:foreach和foreachPartition的区别:RDD类型RDD依赖关系窄依赖宽依赖join有时宽依赖有时窄依赖算子总结map和mapPartitions的区别map是处理RDD里的每个元素, mapPartitions是用于处理RDD里的每个分区map和foreach的区别:map有返回值,...原创 2019-01-04 17:58:19 · 533 阅读 · 0 评论 -
spark08--kafka组件,面试题,常用命令,可视化,api,Streaming简介,DStream,nc服务,Streaming实现Wordcount
kafka重要组件1. producer:生产者负责将数据传入kafka, 比如flume, java后台服务, logstash生产者可以有多个, 并且可以同时往一个topic中写数据, 也可以同时往同一个partition中写数据每一个生产者都是一个独立的进程, 而且单个生产者就具有分发数据的能力一个生产者可以同时往多个topic中分发数据2. kafka cluster:...原创 2019-01-09 19:09:21 · 481 阅读 · 0 评论