spark
文章平均质量分 87
sunkl_
这个作者很懒,什么都没留下…
展开
-
spark2.2升级spark2.4遇到的bug
一直以来spark社区是非常活跃的开源社区,版本跟新迭代速度相当的快。有的时候大版本更新时间速度快到怀疑人生,第一次感觉到学习速度跟不上更新速度,是在spark1.6更新到spark2.0,两个版本几乎没有间隔多久。也一度怀疑自己已经老了,吃不动这碗饭了。回归正题,spark官方版本更新速度比较快本身是一件很好的事情,能够快速修复已经提交的bug,新的性能优化方案和技术方向可以很快在新版本上得...原创 2019-12-24 17:18:59 · 1644 阅读 · 0 评论 -
spark ORC原理
orc历史 ORC的全称是(Optimized Row Columnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式,它的产生早在2013年初,最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。orc结构–----hdfs上的物理视图 orc结构----逻辑视图orc存储结构解析 orc文件有如下结构快:b...原创 2018-09-25 18:09:57 · 6755 阅读 · 0 评论 -
spark sql 内置配置(V2.2)
最近整理了一下spark SQL内置配。加粗配置项是对sparkSQL 调优性能影响比较大的项,小伙伴们按需酌情配置。后续会挑出一些通用调优配置,共大家参考。有不正确的地方,欢迎大家在留言区留言讨论。 配置项 默认值 概述 spark.sql.optimizer.maxIterations 100 sql优化器最大迭代次数 spark.sql.optimizer...原创 2018-09-25 18:13:06 · 9540 阅读 · 0 评论 -
spark streaming 流式计算---跨batch连接池共享(JVM共享连接池)
在流式计算过程中,难免会连接第三方存储平台(redis,mysql...)。在操作过程中,大部分情况是在foreachPartition/mapPartition算子中做连接操作。每一个分区只需要连接一次第三方存储平台就可以了。假如,当前streaming有100分区,当前流式计算宫分配了20个cpu,有4个cpu负责接收数据。那么,在一个批次中一共需要对第三方平台创建100次连接,同时最大并行连...原创 2018-10-24 01:53:23 · 1647 阅读 · 5 评论 -
spark streaming流式计算---监听器
随着对spark的了解,有时会觉得spark就像一个宝盒一样时不时会出现一些难以置信的新功能。每一个新功能被挖掘,就可以使开发过程变得更加便利一点。甚至使很多不可能完成或者完成起来比较复杂的操作,变成简单起来。有些功能是框架专门开放给用户使用,有些则是框架内部使用但是又对外暴露了接口,用户也可以使用的功能。 今天和大家分享的是两个监听器SparkListener和stre...原创 2018-10-30 12:01:15 · 3277 阅读 · 0 评论 -
spark-GBDTs源码解析(GBDT梯度提升决策树[回归GBTClassifier|分类GBDTRegressor])_(spark_2.2.0)
GBDT算法简介【概述】 GBDT(全称梯度下降树)是集成学习中的其中一种算法。幸运的是spark在MLlib中有相关实现,共有两种实现GBTClassifier,GBDTRegressor。【spark实现计算流程】 1. 若当前实现为GBTClassifier,检查训练集的label是否包含0和1之外的值,如果包含异常退出,否则将0和1转换成-...原创 2019-07-08 12:01:40 · 3283 阅读 · 1 评论 -
spark-decisionTreeRegressor(DTR回归决策树)源码解析
特征处理获取特征类别【概述】当前部分主要作用时获取 /** * Examine a schema to identify categorical (Binary and Nominal) features. * * @param featuresSchema Schema of the features column. * ...原创 2019-07-13 00:54:09 · 1091 阅读 · 0 评论