spark
Daniel李_
学习不易,多做笔记
展开
-
pyspark小白:尝试性能优化一点心得
前言:本人之前情况是有python编程基础,但对大数据分布式的掌握限于皮毛的理论知识。借着任务驱动,历时两周空闲时间,先后学习了1.spark(pyhon版)之RDD编程,SparkSql,SparkMl;2.了解spark运行的基本底层原理,在写代码时对spark性能优化的一些手段。其实很浅,把自己一些tips整理出来,希望能帮助到同样开始入门的小白白。业务场景:业务上希望能找到文不对题的CP(昵称简介与本人生产视频不符,会给消费者先入为主带来一些主观上的意外感的CP)。一个指标是计算视频TA原创 2020-07-20 19:14:11 · 1106 阅读 · 0 评论 -
pyspark入门整理
最近工作需要对千万以上数据做特征处理,为了提升运(zao)算(ri)效(xia)率(ban),开始使用pyspark做分布式运算。也是从基本开始学习,先把用到的一些资料贴在这里,日后有空结合业务进一步整理。(一)原理篇一文弄懂PySpark原理与实践https://blog.csdn.net/oTengYue/article/details/88417186(二)上手篇官方文档spark.apache.org内部tdw spark文档https://git.code.oa.co...原创 2020-07-02 15:03:18 · 410 阅读 · 0 评论