![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 88
橘子超甜
这个作者很懒,什么都没留下…
展开
-
spark大数据处理技术、 应用与性能优化
spark大数据处理技术、 应用于性能优化**spark简介** spark是什么 基于内存的分布式实时计算框架,保证高容错高可伸缩性 与hadoop的关系 hadoop是mapreduce以及hdfs等基础加上hive,hbase,等上层的生态关系,spark是mapreducce的替代方案,sparksql是hive的替代方案,sparkstreaming是storm的替代方...原创 2018-10-10 08:51:32 · 682 阅读 · 0 评论 -
SPARK的时间函数
SPARK的时间函数package testimport java.util.Dateimport org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSession/**Created by fanxiaoxia on 2018/11/28.*/object SPARKDATE {Class.forName(...原创 2018-11-28 19:05:02 · 485 阅读 · 0 评论 -
spark术语及理解
1.Application基于spark的用户程序,包含了一个driver program 和集群中多个 executor,一定是通过一个有main方法的类执行的。2.Driver Program运行application的main()函数并自动创建SparkContext。通常SparkContext 代表driver program,说白了,就是运行程序中main方法的进程,这就是dri...原创 2019-01-11 17:05:23 · 382 阅读 · 0 评论 -
SparkStreaming的运行流程
1、客户端提交作业后,启动Driver,Driver是Spark作业的Master(也就是通过Driver来启动Receiver,定时去启动任务的处理,注意的是,驱动启动任务会受前一个任务执行的影响。也就是前一个任务没有执行完成后,是不会启动后边的任务的。 所以,注意你的streaming的执行时间,绝对不要超过Recive数据的时间)2、每个作业包含多个Executor,每个Executor...原创 2019-01-11 17:33:58 · 677 阅读 · 0 评论 -
SparkSql优化
1、避免用in和not in解决方案:用exists和not exists代替用join代替效率:not in 慢是因为not in 不走索引2、in 会导致数据倾斜3、大表join小表策略:将小表广播(brodcast)参数:spark.sql.autoBroadcastJoinThreshold 默认值10485760(10M),当小表或df的大小小于此值,Spark会自动...原创 2019-01-14 16:19:42 · 494 阅读 · 1 评论 -
SparkCore执行方式核心知识
一、Spark作业调度方式1、Local测试或实验性质的本地运行模式Local[N]是用单机的多个线程来模拟Spark分布式计算,通常用来验证开发出来的应用程序逻辑上有没有问题。其中N代表可以使用N个线程,每个线程拥有一个core。如果不指定N,则默认是一个线程(该线程有一个core)2、standalone:指定节点使用sparksubmit提交任务的时候(包括idea或其他开发工具...原创 2019-01-15 11:19:30 · 167 阅读 · 0 评论 -
SparkRDD
算子分类一、Transformation概念:字面意思就是进行转换,将rdd有一个形态转化成另一个形态常见Transformation算子flatmap:将行拆分为单词map:最常用的算子,将原rdd的形态转化为另一种形态filter:过滤sample:根据给定的随机算子seed,随机抽样出数量为frac的数据union:返回一个新的数据集,由元数据集和参数联合而成,该union...原创 2019-01-15 16:44:13 · 246 阅读 · 0 评论