Spark
文章平均质量分 92
daoxu_hjl
这个作者很懒,什么都没留下…
展开
-
Spark SQL 内核
SQL执行过程逻辑算子树生成未解析的逻辑算子树(Unresolved LogicalPlan)仅仅是数据结构,不包含任何数据信息等解析后的逻辑算子树(Analyzed LogicalPlan)树节点中绑定各种信息优化后的逻辑算子树(Optimized LogicalPlan)基于RBO,应用各种优化规则对一些低效的逻辑计划进行转换物理算子树生成基于逻辑算子树,生成物理算子树列表Iterator[PhysicalPlan](同样的逻辑算数树可能生成多个物理算子树)按照一定原创 2020-09-10 05:59:15 · 168 阅读 · 0 评论 -
BigData Reference Website
SparkSpark官网所有版本的Spark 官方参考信息:概要、编程引导、API文档等Spark documentation可选择查看历史所有版本的文档信息包含介绍、编程引导、API、部署等信息原创 2020-09-09 21:55:16 · 128 阅读 · 0 评论 -
Spark 调优 — 资源调优&参数调优
spark-submit 参数具体如下:spark-submit \--queue ${1} \ # 指定资源队列,否则默认default--master yarn--deploy-mode ${2} \ # client or cluster: 选择客户端模式或者集群模式提交:决定driver 是在本地还是集群内节点:cluster模式能够降低本地压力,发挥集群服务器优势--num-executors ${3} \ # 启动的executor进程数量:50-100个比较合适,具体看可用资源.原创 2020-08-25 21:34:58 · 1610 阅读 · 1 评论 -
Spark调优 — 开发调优
发挥分布式并行处理优势,降低代码的耦合度,实现不同部分代码能够并行执行,减少前后依赖的等待时间避免创建重复RDD,尽可能复用一个RDD代码上精简,提升复用率多次使用的RDD进行持久化建议使用MEMORY_AND_DISK_SER 持久化级别val rdd1 = sc.textFile("hdfs://192.168.0.1:9000/hello.txt").persist(StorageLevel.MEMORY_AND_DISK_SER)持久化级别含义解释M原创 2020-08-24 23:34:00 · 306 阅读 · 0 评论 -
mapreduce.fileoutputcommitter.algorithm.version
两个版本(各有优劣)mapreduce.fileoutputcommitter.algorithm.version = 1性能方面:v1在task结束后只是将输出文件拷到临时目录,然后在job结束后才由Driver把这些文件再拷到输出目录。如果文件数量很多,Driver就需要不断的和NameNode做交互,而且这个过程是单线程的,因此势必会增加耗时。如果我们碰到有spark任务所有task结束了但是任务还没结束,很可能就是Driver还在不断的拷文件;数据一致性方面:v1在Job结束后才批量拷文件原创 2020-08-24 21:22:43 · 2668 阅读 · 0 评论 -
Spark Basics
Oracle to Spark SQL需要转换之处decode 转为case when condition then result_1 else result_2 end 写法decode是一个字符串函数:decode(binary bin, string charset) STRING 用charset的编码方式对bin进行解码。子查询必须指定一个别名下面语句...原创 2019-09-04 23:48:06 · 1025 阅读 · 0 评论 -
Spark 初始化对象
Spark 1+ 和 Spark 2+ 初始化SparkContext有所区别,现列出Spark 1.5.0 和 Spark 2+中初始化sc方式:1 Spark 2+先创建一个SparkSession对象:通过config方法配置自定义设置,可以写多个config设置val spark = SparkSession.builder() // Creates a [[SparkSessio...原创 2019-07-21 20:37:28 · 260 阅读 · 0 评论