- 博客(3)
- 收藏
- 关注
原创 257. Binary Tree Paths
问题:给出一个二叉树,返回所有的根到叶子的路径。解题思路1. 误区:本题用的c++写的,题目已经提供了方法的接口,返回值是一个vector,直接应用递归的话不好写,可以再扩展一个新的递归方法。/** * Definition for a binary tree node. * struct TreeNode { * int val; * TreeNo...
2018-07-31 00:34:07 169
原创 spark源码分析--GradientBoostedTrees和RandomForest
spark源码分析–GradientBoostedTrees和RandomForestGradientBoostedTree是spark mllib中的一个树模型,源码见GradientBoostedTrees.scala。该模型仅适用于回归和二分类问题。训练调用方法import org.apache.spark.mllib.tree.GradientBoostedTrees/...
2018-07-24 17:52:57 853 1
原创 Spark性能优化研究--cache的用法
Spark性能优化研究–cache的用法背景最近在用spark训练模型,数据量达到了50亿量级,遇到了很多性能问题,特此进行了试验总结。我们使用cache或者persist内存持久化的目的,是为了在以后的数据计算中减少数据读取的时间,当要处理的数据量过大时,比如50亿级,常常会遇到内存不够,或者cache所需时间过长的问题。cache会破坏spark在做DAG优化执行计划的时候的数据本...
2018-07-23 18:28:00 2565 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人