Spark
吗达拉
这个作者很懒,什么都没留下…
展开
-
1spark初了解
1–Spark的子项目SparkCore:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复与存储系统交互等模块。SparkCore中还包含了对弹性分布式数据集RDD的API定义SparkSql:是Saprk用来操作结构化数据的程序包,通过SparkSql可以使用SQL或者Hive版本的SQL语言来查询数据,支持多种数据源,例如hive,parquet以及json等SparkStr...原创 2019-05-14 11:17:34 · 927 阅读 · 0 评论 -
01_机器学习基本概念
1,机器学习能做什么①统计学习②数据挖掘③模式识别④计算机视觉⑤语音识别⑥自然语言处理传统的机器学习**监督学习:**从给定的训练数据集中学习出一个函数(模型参数),当新的数据到来时,可以根据这个函数预测结果**无监督学习:**输入数据没有被标记,也没有确定的结果人工智能:深度学习,强化学习,迁移学习2,机器学习的一般流程①数据预处理②特征工程③机器学习模型训练④模...原创 2019-06-04 13:35:51 · 303 阅读 · 0 评论 -
数据倾斜
1,数据倾斜的现象多数task执行速度较快,少数task执行时间非常长,或者等待很长的时间后提示你内存不足,执行失败2,为什么数据倾斜①数据本身的问题key本身分布的不均匀(包括大量key为空);key的设置不合理;②spark的使用问题shuffle时的并发度不够;计算方式有误3,数据倾斜的后果①木桶效应,spark中stage的执行时间受限于最后执行完成的那个task,因此...原创 2019-06-06 11:53:35 · 113 阅读 · 0 评论 -
6、Spark性能优化
spark最大的有点也是它最大的问题-----基于内存的计算模型1、使用高性能序列化类库Kryo类库序列化,比java的Serializable占用空间更小,通常比Java序列化的小10倍。使用方法:SparkConf().set(“spark.serializer”,“org.apache.spark.serializer.KryoSerializer”)即可2、优化数据结构优先使用数...原创 2019-05-14 16:36:45 · 103 阅读 · 0 评论 -
5,SparkStreaming
SparkStreaming使用微批次的架构,把流式计算当作一系列连续的小规模批次来处理,SpatrkStreaming从各种数据源中读取数据并把数据分组为小的批次,新的批次按均匀的时间间隔创建出来。编程抽象是离散化流,即Dstream,它是一个RDD序列每个RDD代表数据流中一个时间片段内的数据下面初步的看一下SparkStreaming底层是怎么做的,自己扒一扒源码总结了一下:一:程序入口...原创 2019-05-14 15:50:35 · 86 阅读 · 0 评论 -
4,SparkSql
一,RDD与DataFrame与DataSet的区别1,RDD的劣势是性能限制,它是一个jvm驻内存对象,这也就决定了在GC的限制和数据增加时序列化成本的提高2,Dataframe与RDD类似,也是一个分布式数据容器。然而DataFrame更像是传统数据库的二维表格,除了数据以外还记录数据的结构信息,即schema.同时与hive类似,DataFrame也支持嵌套数据类型struct,arra...原创 2019-05-14 15:12:49 · 102 阅读 · 0 评论 -
3,sql的底层原理
1只要是关系型数据库的sql执行模型,都是类似的①自己编写的sql语句,从哪儿去查询,从哪个文件,从文件查询哪些数据,是否要进行筛选,还有例如在mysql中执行计划还涉及到如何扫描和利用表索引②经过sqlparser生成Unresolved LogicalPlan,逻辑执行计划③再生成resolved logicalplan解析后的逻辑计划④optimized logicalplan优化后...原创 2019-05-14 14:02:35 · 304 阅读 · 0 评论 -
2-1SparkCore
一:RDD的五大特性1,A list of partition,一组分片即数据集的基本组成单位。对于RDD来说,每个分片都会被一个计算任务处理,并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分片个数,如果没有指定,就会采取默认值,就是程序所分配的CPU Core数2,一个计算每个分区的函数。Spark中RDD的计算是以分片为单位的,每个RDD都会实现compute函数以达到这个目的...原创 2019-05-14 13:49:34 · 66 阅读 · 0 评论 -
2-2SparkContext的submit以及原理大致剖析
1打包一个spark工程2在spark安装目录的bin下,有一个spark-submit脚本3exec “SPARKHOME"/bin/spark−classorg.apache.spark.deploy.SparkSubmit"{SPARK_HOME}"/bin/spark-class org.apache.spark.deploy.Sp...原创 2019-05-14 11:47:21 · 277 阅读 · 0 评论 -
Kafka笔记
1,日志和数据存储分离,因为kafka保存数据的文件是以.log为后缀的。为了方便区分,最好在kafka配置文件中指定一下保存数据的路径。另外.log文件存的实际数据默认保存7天,单文件个数最大为1G2,0.9版本以前offset存在zk中,0.9版本以后存在kafka本地3,发送完成后将偏移量发送回去4,这个图说明kafka不能保证全局有序,只能保证区内有序性5,kafka采取分片和...原创 2019-09-16 10:49:51 · 145 阅读 · 0 评论